神仙下凡 发表于 2007-6-20 06:45:53

采集地址被全部过滤,大都是没下载的内容。。。

翻看了很多贴,还是没找到解决的办法
比如,采集目标站的大概10000文章数
火车头采到3000左右就因为某些原因自动死掉或者电脑电源挂了
再重新启动火车头的时候,发现所有的网址都被过滤掉了
而不是仅仅已经下载完的网址~~~~~~~
如何才能以下载完内容页为标准而不是以是否收集到网址为标准呢?

rq204 发表于 2007-6-20 09:07:21

你不要太狠呀,一下子采2000多就可以了。。

有点笨 发表于 2007-6-20 09:25:20

好象不是这个问题呢,我也遇到和楼主同样的问题,而我只采集了200条内容啊,郁闷到现在:'(

天毅 发表于 2007-6-20 10:22:30

我的办法(非常笨,但是也算个办法):
采集之前先备份,防止采集失误或者意外导致大量的无用的数据,必要时直接还原
分批采集,一批大概1000左右最多不超过2000
先用一个测试论坛或者cms做测试,随时可以删除,不必担心会影响到之前有用的数据
万一火车出意外 立刻检查规则 删除之前采集记录 清空采集的数据 重新采集

神仙下凡 发表于 2007-6-20 14:09:02

原帖由 rq204 于 2007-6-20 09:07 发表
你不要太狠呀,一下子采2000多就可以了。。

这样的话就不如CMS自带的采集好用了
自带的采集可以不重复采集已经下载好的文章,而继续采集没下载完的文章~~
我觉得火车头得在这上面改进,与CMS的采集靠拢些~

神仙下凡 发表于 2007-6-20 14:17:44

原帖由 天毅 于 2007-6-20 10:22 发表
我的办法(非常笨,但是也算个办法):
采集之前先备份,防止采集失误或者意外导致大量的无用的数据,必要时直接还原
分批采集,一批大概1000左右最多不超过2000
先用一个测试论坛或者cms做测试,随时可以 ...

备份这条路行不通
因为数据量太大了,一百多万条。。。。

redkylin 发表于 2007-6-21 20:43:02

还有个问题
火车头运行的时候人不能走开,比如把计算机锁定,就完了,回来火车头就死拉
采集不到300条就这样!
页: [1]
查看完整版本: 采集地址被全部过滤,大都是没下载的内容。。。