采集重复网址的判定

secendday 发表于 2009-3-16 08:30:59

采集一个站的内容，有3万多了，还在不断的添加，
3万多条内容已经采集完成，这个站有了新内容，
我只想采集新的内容，以前采集过的，不再采集，
我是这样做的，直接点开始，这样，火车对待已经采集过的，会提示，已经存在，不再采集，而后只添加新的网址进行采集。
这已经能满足我的那个要求了，

现在的关键问题：
每次仅仅是采集地址（包括判定重复网址），3万多条，就需要4个小时，而且以前采集的3万多条，每次仅仅时判定它们，就得几个小时，其实新的内容也就几十条，有没有办法，能让判定重复的时间　快一些。

谢谢了。

ghostscat 发表于 2009-3-16 08:55:42

地址列表页面肯定是分页的，第一次采集的时候，每个列表分页都写上去，采完一次后，只保留第一页的列表页面，这样不用每次去对比3万条地址了，火车头默认是10条地址重复就跳过采集地址的

secendday 发表于 2009-3-16 09:41:11

先谢谢了
太深奥了些对我，列表页一页有300个内容链接地址，列表页有100多页，我看了下，采集后的记录，pageurl只是每个内容页的链接，没有列表页的链接.该如何操作呢？

secendday 发表于 2009-3-16 09:42:03

火车头默认是10条地址重复就跳过采集地址的

跳过去了，它怎么采集　新的内容地址呢？

火车头 发表于 2009-3-16 09:44:43

火车头默认是10条地址重复就跳过采集地址的

跳过去了，它怎么采集　新的内容地址呢？
secendday 发表于 2009-3-16 09:42 http://bbs.locoy.com/images/common/back.gif

系统采集发布设置将10条的限制改为0，则一直判断

secendday 发表于 2009-3-16 09:48:13

系统采集发布设置将10条的限制改为0，则一直判断
火车头发表于 2009-3-16 09:44 http://bbs.locoy.com/images/common/back.gif
多谢
我就是改成了0，但就象我顶楼提出的问题一样，它要判断所有的3万多条已经采集过的数据，才能隔过已经采集的，去采集后来添加的几十条　新的数据，时间太长了，要好几个小时，
有没有办法　能让判定那三万多条已采集数据的时间　短一些，快一些。

secendday 发表于 2009-3-16 17:54:56

麻烦给看一下。

hinet 发表于 2009-7-14 15:18:55

帮你顶一下，这问题需要解决

页: [1]

火车采集器软件交流官方论坛's Archiver

采集重复网址的判定