采集主题列表与排除重复分开
不知道大家有没有发现,测试采集网址很快,5分钟就可测试10万多条主题url。而真正采集主题url的时候很慢。为什么?因为测试的时候是不进行重复网址对比的,而真正采集的时候,每录入一条主题url,就要跟其它url对比看有没有重复。采集10万条主题url竟然需要整整10个小时。这样对那些非包月宽带用户很不利。
所以我建议,真正采集主题url 的时候,先把主题url 全部采下来,不管它重复不重复。采集完后,提示用户:可断开宽带连接。断开宽带后,火车头再在本地进行url 对比,让它慢慢对比,对比上十几二十个小时都无所谓,反正不浪费宽带时间。 测试采集网址并没有采集内容 所以比正式采集要快好多! 测试采集网址并没有采集内容 所以比正式采集要快好多!
懷念過去↑文 发表于 2009-3-24 09:05 http://bbs.locoy.com/images/common/back.gif
文版主你误会了。我说的是测试采集网址和正式采集网址之间的对比。现在谈的根本不是内容采集。仅仅限于测试录入全部url和正式录入全部url之间的对比。 历史帖子回顾中。
页:
[1]