SmartMichael 发表于 2007-11-8 11:19:42

每个栏目总有几十篇采集不下来,能采集的 Web 在线发布正常

如何能重新采集漏掉的这几十篇呢?要求先前已经采集入库的不重复采集!

那些漏掉的是因为内容布局不同,采集的正文内容为空,所以火车没有发布。

修改规则后,重新采集的话,因为该网址已经存在,采集器里该记录内容也已经存在,火车就不再重新采集了。

怎么办啊?

:Q

[ 本帖最后由 SmartMichael 于 2007-11-8 11:21 编辑 ]

luobo525 发表于 2007-11-8 12:35:22

右键,删除已采集的数据

SmartMichael 发表于 2007-11-8 17:32:12

原帖由 luobo525 于 2007-11-8 12:35 发表 http://bbs.locoy.com/images/common/back.gif
右键,删除已采集的数据
没搞明白我的问题呀,好像?

ali16ls

vus520 发表于 2007-11-8 18:36:02

回复 undefined 的帖子

如何能重新采集漏掉的这几十篇呢?要求先前已经采集入库的不重复采集!
那些漏掉的是因为内容布局不同,采集的正文内容为空,所以火车没有发布。
修改规则后,重新采集的话,因为该网址已经存在,采集器里该记录内容也已经存在,火车就不再重新采集了。

这样也很简单.打开你要重新采集的任务数据数据库,你会看到有采集过和没有采集到的那些文章!

如果你已经发布过一些,那么可以排列一下这些数据,把发布的文章全部删除!然后重新设置采集规则,再采集没有采集
到的文章!

SmartMichael 发表于 2007-11-8 19:06:03

谢谢回楼上的,我去试试。

我用的是 3.2 免费正式版
页: [1]
查看完整版本: 每个栏目总有几十篇采集不下来,能采集的 Web 在线发布正常