火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7483|回复: 2

出用火车头 有个想不明白的问题--关于重复采集

[复制链接]
发表于 2010-4-1 13:57:35 | 显示全部楼层 |阅读模式
本帖最后由 fourstone 于 2010-4-1 15:02 编辑

我现在是  标题标签 勾选 不能为空和不能重复
内容标签 只勾选不能为空  (勾选不能重复以后,采集其他全新的完全不同类型的网站,一直出现:采内容--内容标签设置采集结果不得为空,自动过滤该文章)

现在的疑问是:比如目标网站有10个分类 每个分类30页 5000条数据 我今天采集了之后,没有全部发布,比如发布了1000条
第二天开始这个规则 是不是又要重新分析网址、数据
会不会自动跳过昨天的1000条,从2000条开始?
还是重复发布?依然从0开始?
如果会重复,有什么办法控制码?
感谢

PS:做了测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下


看来 只要删除了本地的数据库和网址 就不行了 如果一下子分析10个分类 300页数据 是可以接下去采集的
发表于 2010-4-1 14:42:54 | 显示全部楼层
选项设置——采集发布设置——连续重复多少条后跳过采网址——设置为自己想要的。
 楼主| 发表于 2010-4-1 14:56:01 | 显示全部楼层
我做了一些测试
1,采集发布设置为0条,删除本地数据,关闭程序再打开,重新开始,程序跳过所有网址,继续发布未发布的数据
2,采集发布设置为0条,删除本地数据和本地网址,关闭程序再打开,重新开始,程序开始重新采集并重复发布
都是勾选了 不能为空和该标签不重复的前提下
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-5-2 07:17

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表