我实在不明白火车头采url为什么这么慢（已解决by rq204 ）

干燥时间 发表于 2009-3-25 05:54:32

本帖最后由干燥时间于 2009-3-25 12:42 编辑

注意：我说的不是采内容，我说的是采url。只采集url进站点地址库，不采集内容。

我测试url的时候，某网站的全部主题url 5分钟就全部列出来了，有十多万条url。但到了正式采url的时候（再次强调我不采内容），10个小时都没采完这些url（再次强调不采内容，是把主题列表里的全部主题的地址采下来）。

不知道这是为什么呢？希望能有高人赐教。

我个人猜测，火车头每采完一条url（强调：不采内容），就拿它和其它已有url进行穷举对比，所以才会这么慢。我建议把程序改为这样：采下一条新url后不管它是否重复，都入库，等全部url采进站点地址库之后再来剔除重复。这样的话，那些宽带包时用户就可以先全部url入库，断开宽带，再来剔除重复。

懷念過去↑文 发表于 2009-3-25 07:10:43

只见过在入库的时候处理，没见过入库后才处理！

rq204 发表于 2009-3-25 10:20:34

主要是慢在入access数据库这步上。因为10万对access来说不是个小数目。access的效率你应是知道的。如果你追求高速度，可以考虑购买收费版本。

干燥时间 发表于 2009-3-25 12:42:17

主要是慢在入access数据库这步上。因为10万对access来说不是个小数目。access的效率你应是知道的。如果你追求高速度，可以考虑购买收费版本。
rq204 发表于 2009-3-25 10:20 http://bbs.locoy.com/images/common/back.gif

我知道access慢，我的意思是说，能不能调整一下，不要边入库边剔除重复？最好是不管是否重复，全部入库先，反正url不是主键，ID才是主键。入库后，提示用户：你现在可以断开网络。然后让它自己慢慢剔除重复，就不会浪费宽带时间了。

有一大部分用户是用宽带包时而不是宽带包月的。现在许多城市都是120包300小时8M，200包月4M，有些用户会选择包时而不是包月。

lijike 发表于 2009-9-30 23:11:09

主要是慢在入access数据库这步上。因为10万对access来说不是个小数目。access的效率你应是知道的。如果你追求高速度，可以考虑购买收费版本。
rq204 发表于 2009-3-25 10:20 http://bbs.locoy.com/images/common/back.gif
并不是数目的问题,哪怕是10条火车头写入的也非常慢,但是手工导入10万条也不会超过30秒

页: [1]

火车采集器软件交流官方论坛's Archiver

我实在不明白火车头采url为什么这么慢（已解决by rq204 ）