导出二级节点数目和程序统计相差很大(多次实验)
本帖最后由 aven 于 2010-1-20 09:07 编辑这个问题很长时间了
火车版本 2009 sp4 正式版原来怎么也有类似问题
由于本人经常大量处理数据,大量网址列表获取对火车常规方法来说是很慢的,
所以本人都是测试时采集所有列表,导出二级节点,这样比纯粹的火车入pageurl快好几倍
但是导出的数目和完成时程序统计的相差太大了,每一万条能差 2000-3000左右
无论是选检测重复网址与否,此数目相差都一样,我确定要采的网址列表里不会有如此多的重复
不知道是什么问题,附上几个图片
我的也是这样,每次总会少一点 学习中。。。还不会用!! 火车头用1级深度采集从列表页采内容页链接再采集内容页内容时,也会丢失内容页链接,譬如说1个列表页有20个内容页,共有300个列表页且每页都是满20条的,理论上应该采到6000个内容页,实际经常不能采到这个数,会漏
我之前是不用多线程来处理,这样会好点,漏的相对少点。
现在是通过写插件,先单线程把内容页的链接全部拿下来输出成txt,然后我再以txt为起始地址来采集内容。 本帖最后由 heking5201 于 2010-8-31 23:11 编辑
帮定。。刚才搞错了 遇到同样的问题 郁闷中 不知道官方什么时候可以解决~!
页:
[1]