出用火车头 有个想不明白的问题--关于重复采集
本帖最后由 fourstone 于 2010-4-1 15:02 编辑我现在是标题标签 勾选 不能为空和不能重复
内容标签 只勾选不能为空(勾选不能重复以后,采集其他全新的完全不同类型的网站,一直出现:采内容--内容标签设置采集结果不得为空,自动过滤该文章)
现在的疑问是:比如目标网站有10个分类 每个分类30页 5000条数据 我今天采集了之后,没有全部发布,比如发布了1000条
第二天开始这个规则 是不是又要重新分析网址、数据
会不会自动跳过昨天的1000条,从2000条开始?
还是重复发布?依然从0开始?
如果会重复,有什么办法控制码?
感谢
PS:做了测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下
看来 只要删除了本地的数据库和网址 就不行了 如果一下子分析10个分类 300页数据 是可以接下去采集的 选项设置——采集发布设置——连续重复多少条后跳过采网址——设置为自己想要的。 我做了一些测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下
页:
[1]