fourstone 发表于 2010-4-1 13:57:35

出用火车头 有个想不明白的问题--关于重复采集

本帖最后由 fourstone 于 2010-4-1 15:02 编辑

我现在是标题标签 勾选 不能为空和不能重复
内容标签 只勾选不能为空(勾选不能重复以后,采集其他全新的完全不同类型的网站,一直出现:采内容--内容标签设置采集结果不得为空,自动过滤该文章)

现在的疑问是:比如目标网站有10个分类 每个分类30页 5000条数据 我今天采集了之后,没有全部发布,比如发布了1000条
第二天开始这个规则 是不是又要重新分析网址、数据
会不会自动跳过昨天的1000条,从2000条开始?
还是重复发布?依然从0开始?
如果会重复,有什么办法控制码?
感谢

PS:做了测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下


看来 只要删除了本地的数据库和网址 就不行了 如果一下子分析10个分类 300页数据 是可以接下去采集的

wuxiguacom 发表于 2010-4-1 14:42:54

选项设置——采集发布设置——连续重复多少条后跳过采网址——设置为自己想要的。

fourstone 发表于 2010-4-1 14:56:01

我做了一些测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下
页: [1]
查看完整版本: 出用火车头 有个想不明白的问题--关于重复采集