aven 发表于 2010-1-18 11:04:59

导出二级节点数目和程序统计相差很大(多次实验)

本帖最后由 aven 于 2010-1-20 09:07 编辑

这个问题很长时间了

火车版本 2009 sp4 正式版原来怎么也有类似问题

由于本人经常大量处理数据,大量网址列表获取对火车常规方法来说是很慢的,

所以本人都是测试时采集所有列表,导出二级节点,这样比纯粹的火车入pageurl快好几倍

但是导出的数目和完成时程序统计的相差太大了,每一万条能差 2000-3000左右

无论是选检测重复网址与否,此数目相差都一样,我确定要采的网址列表里不会有如此多的重复

不知道是什么问题,附上几个图片















heavenbluee 发表于 2010-5-21 12:43:25

我的也是这样,每次总会少一点

fakuai.com 发表于 2010-8-22 11:45:14

学习中。。。还不会用!!

gzfc 发表于 2010-8-31 16:40:44

火车头用1级深度采集从列表页采内容页链接再采集内容页内容时,也会丢失内容页链接,譬如说1个列表页有20个内容页,共有300个列表页且每页都是满20条的,理论上应该采到6000个内容页,实际经常不能采到这个数,会漏

我之前是不用多线程来处理,这样会好点,漏的相对少点。

现在是通过写插件,先单线程把内容页的链接全部拿下来输出成txt,然后我再以txt为起始地址来采集内容。

heking5201 发表于 2010-8-31 23:06:38

本帖最后由 heking5201 于 2010-8-31 23:11 编辑

帮定。。刚才搞错了

artkart 发表于 2011-7-26 23:16:39

遇到同样的问题 郁闷中 不知道官方什么时候可以解决~!
页: [1]
查看完整版本: 导出二级节点数目和程序统计相差很大(多次实验)