火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3209|回复: 3

采集主题列表与排除重复分开

[复制链接]
发表于 2009-3-24 08:48:46 | 显示全部楼层 |阅读模式
不知道大家有没有发现,测试采集网址很快,5分钟就可测试10万多条主题url。而真正采集主题url的时候很慢。

为什么?因为测试的时候是不进行重复网址对比的,而真正采集的时候,每录入一条主题url,就要跟其它url对比看有没有重复。采集10万条主题url竟然需要整整10个小时。这样对那些非包月宽带用户很不利。

所以我建议,真正采集主题url 的时候,先把主题url 全部采下来,不管它重复不重复。采集完后,提示用户:可断开宽带连接。断开宽带后,火车头再在本地进行url 对比,让它慢慢对比,对比上十几二十个小时都无所谓,反正不浪费宽带时间。
发表于 2009-3-24 09:05:47 | 显示全部楼层
测试采集网址并没有采集内容 所以比正式采集要快好多!
 楼主| 发表于 2009-3-24 09:55:57 | 显示全部楼层
测试采集网址并没有采集内容 所以比正式采集要快好多!
懷念過去↑文 发表于 2009-3-24 09:05


文版主你误会了。我说的是测试采集网址和正式采集网址之间的对比。现在谈的根本不是内容采集。仅仅限于测试录入全部url和正式录入全部url之间的对比。
发表于 2016-2-9 10:54:21 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 18:41

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表