每个栏目总有几十篇采集不下来,能采集的 Web 在线发布正常
如何能重新采集漏掉的这几十篇呢?要求先前已经采集入库的不重复采集!那些漏掉的是因为内容布局不同,采集的正文内容为空,所以火车没有发布。
修改规则后,重新采集的话,因为该网址已经存在,采集器里该记录内容也已经存在,火车就不再重新采集了。
怎么办啊?
:Q
[ 本帖最后由 SmartMichael 于 2007-11-8 11:21 编辑 ] 右键,删除已采集的数据 原帖由 luobo525 于 2007-11-8 12:35 发表 http://bbs.locoy.com/images/common/back.gif
右键,删除已采集的数据
没搞明白我的问题呀,好像?
ali16ls
回复 undefined 的帖子
如何能重新采集漏掉的这几十篇呢?要求先前已经采集入库的不重复采集!那些漏掉的是因为内容布局不同,采集的正文内容为空,所以火车没有发布。
修改规则后,重新采集的话,因为该网址已经存在,采集器里该记录内容也已经存在,火车就不再重新采集了。
这样也很简单.打开你要重新采集的任务数据数据库,你会看到有采集过和没有采集到的那些文章!
如果你已经发布过一些,那么可以排列一下这些数据,把发布的文章全部删除!然后重新设置采集规则,再采集没有采集
到的文章!
谢谢回楼上的,我去试试。
我用的是 3.2 免费正式版
页:
[1]