secendday 发表于 2009-3-16 08:30:59

采集重复网址的判定

采集一个站的内容,有3万多了,还在不断的添加,
3万多条内容已经采集完成,这个站有了新内容,
我只想采集新的内容,以前采集过的,不再采集,
我是这样做的,直接点开始,这样,火车对待已经采集过的,会提示,已经存在,不再采集,而后只添加新的网址进行采集。
这已经能满足我的那个要求了,

现在的关键问题:
每次仅仅是采集地址(包括判定重复网址),3万多条,就需要4个小时,而且以前采集的3万多条,每次仅仅时判定它们,就得几个小时,其实新的内容也就几十条,有没有办法,能让判定重复的时间 快一些。

谢谢了。

ghostscat 发表于 2009-3-16 08:55:42

地址列表页面肯定是分页的,第一次采集的时候,每个列表分页都写上去,采完一次后,只保留第一页的列表页面,这样不用每次去对比3万条地址了,火车头默认是10条地址重复就跳过采集地址的

secendday 发表于 2009-3-16 09:41:11

先谢谢了
太深奥了些对我,列表页一页有300个内容链接地址,列表页有100多页,我看了下,采集后的记录,pageurl只是每个内容页的链接,没有列表页的链接.该如何操作呢?

secendday 发表于 2009-3-16 09:42:03

火车头默认是10条地址重复就跳过采集地址的

跳过去了,它怎么采集 新的内容地址呢?

火车头 发表于 2009-3-16 09:44:43

火车头默认是10条地址重复就跳过采集地址的

跳过去了,它怎么采集 新的内容地址呢?
secendday 发表于 2009-3-16 09:42 http://bbs.locoy.com/images/common/back.gif

系统 采集发布设置 将10条的限制改为0,则一直判断

secendday 发表于 2009-3-16 09:48:13



系统 采集发布设置 将10条的限制改为0,则一直判断
火车头 发表于 2009-3-16 09:44 http://bbs.locoy.com/images/common/back.gif
多谢
我就是改成了0,但就象我顶楼提出的问题一样,它要判断所有的3万多条已经采集过的数据,才能隔过已经采集的,去采集后来添加的几十条 新的数据,时间太长了,要好几个小时,
有没有办法 能让判定那三万多条已采集数据的时间 短一些,快一些。

secendday 发表于 2009-3-16 17:54:56

麻烦给看一下。

hinet 发表于 2009-7-14 15:18:55

帮你顶一下,这问题需要解决
页: [1]
查看完整版本: 采集重复网址的判定