火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2796|回复: 6

采集地址被全部过滤,大都是没下载的内容。。。

[复制链接]
发表于 2007-6-20 06:45:53 | 显示全部楼层 |阅读模式
翻看了很多贴,还是没找到解决的办法
比如,采集目标站的大概10000文章数
火车头采到3000左右就因为某些原因自动死掉或者电脑电源挂了
再重新启动火车头的时候,发现所有的网址都被过滤掉了
而不是仅仅已经下载完的网址~~~~~~~
如何才能以下载完内容页为标准而不是以是否收集到网址为标准呢?
发表于 2007-6-20 09:07:21 | 显示全部楼层
你不要太狠呀,一下子采2000多就可以了。。
发表于 2007-6-20 09:25:20 | 显示全部楼层
好象不是这个问题呢,我也遇到和楼主同样的问题,而我只采集了200条内容啊,郁闷到现在:'(
发表于 2007-6-20 10:22:30 | 显示全部楼层
我的办法(非常笨,但是也算个办法):
采集之前先备份,防止采集失误或者意外导致大量的无用的数据,必要时直接还原
分批采集,一批大概1000左右  最多不超过2000
先用一个测试论坛或者cms做测试,随时可以删除,不必担心会影响到之前有用的数据
万一火车出意外 立刻检查规则 删除之前采集记录 清空采集的数据 重新采集
 楼主| 发表于 2007-6-20 14:09:02 | 显示全部楼层
原帖由 rq204 于 2007-6-20 09:07 发表
你不要太狠呀,一下子采2000多就可以了。。


这样的话就不如CMS自带的采集好用了
自带的采集可以不重复采集已经下载好的文章,而继续采集没下载完的文章~~
我觉得火车头得在这上面改进,与CMS的采集靠拢些~
 楼主| 发表于 2007-6-20 14:17:44 | 显示全部楼层
原帖由 天毅 于 2007-6-20 10:22 发表
我的办法(非常笨,但是也算个办法):
采集之前先备份,防止采集失误或者意外导致大量的无用的数据,必要时直接还原
分批采集,一批大概1000左右  最多不超过2000
先用一个测试论坛或者cms做测试,随时可以 ...


备份这条路行不通
因为数据量太大了,一百多万条。。。。
发表于 2007-6-21 20:43:02 | 显示全部楼层
还有个问题
火车头运行的时候人不能走开,比如把计算机锁定,就完了,回来火车头就死拉
采集不到300条就这样!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-25 09:43

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表