火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3719|回复: 5

导出二级节点数目和程序统计相差很大(多次实验)

[复制链接]
发表于 2010-1-18 11:04:59 | 显示全部楼层 |阅读模式
本帖最后由 aven 于 2010-1-20 09:07 编辑

这个问题很长时间了

火车版本 2009 sp4 正式版  原来怎么也有类似问题

由于本人经常大量处理数据,大量网址列表获取对火车常规方法来说是很慢的,

所以本人都是测试时采集所有列表,导出二级节点,这样比纯粹的火车入pageurl快好几倍

但是导出的数目和完成时程序统计的相差太大了,每一万条能差 2000-3000左右

无论是选检测重复网址与否,此数目相差都一样,我确定要采的网址列表里不会有如此多的重复

不知道是什么问题,附上几个图片















本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2010-5-21 12:43:25 | 显示全部楼层
我的也是这样,每次总会少一点
发表于 2010-8-22 11:45:14 | 显示全部楼层
学习中。。。还不会用!!
发表于 2010-8-31 16:40:44 | 显示全部楼层
火车头用1级深度采集从列表页采内容页链接再采集内容页内容时,也会丢失内容页链接,譬如说1个列表页有20个内容页,共有300个列表页且每页都是满20条的,理论上应该采到6000个内容页,实际经常不能采到这个数,会漏

我之前是不用多线程来处理,这样会好点,漏的相对少点。

现在是通过写插件,先单线程把内容页的链接全部拿下来输出成txt,然后我再以txt为起始地址来采集内容。
发表于 2010-8-31 23:06:38 | 显示全部楼层
本帖最后由 heking5201 于 2010-8-31 23:11 编辑

帮定。。刚才搞错了
发表于 2011-7-26 23:16:39 | 显示全部楼层
遇到同样的问题 郁闷中 不知道官方什么时候可以解决~!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-9-29 06:29

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表