火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3589|回复: 7

采集重复网址的判定

[复制链接]
发表于 2009-3-16 08:30:59 | 显示全部楼层 |阅读模式
采集一个站的内容,有3万多了,还在不断的添加,
3万多条内容已经采集完成,这个站有了新内容,
我只想采集新的内容,以前采集过的,不再采集,
我是这样做的,直接点开始,这样,火车对待已经采集过的,会提示,已经存在,不再采集,而后只添加新的网址进行采集。
这已经能满足我的那个要求了,

现在的关键问题:
每次仅仅是采集地址(包括判定重复网址),3万多条,就需要4个小时,而且以前采集的3万多条,每次仅仅时判定它们,就得几个小时,其实新的内容也就几十条,有没有办法,能让判定重复的时间 快一些。

谢谢了。
发表于 2009-3-16 08:55:42 | 显示全部楼层
地址列表页面肯定是分页的,第一次采集的时候,每个列表分页都写上去,采完一次后,只保留第一页的列表页面,这样不用每次去对比3万条地址了,火车头默认是10条地址重复就跳过采集地址的
 楼主| 发表于 2009-3-16 09:41:11 | 显示全部楼层
先谢谢了
太深奥了些对我,列表页一页有300个内容链接地址,列表页有100多页,我看了下,采集后的记录,pageurl只是每个内容页的链接,没有列表页的链接.该如何操作呢?
 楼主| 发表于 2009-3-16 09:42:03 | 显示全部楼层
火车头默认是10条地址重复就跳过采集地址的

跳过去了,它怎么采集 新的内容地址呢?
发表于 2009-3-16 09:44:43 | 显示全部楼层
火车头默认是10条地址重复就跳过采集地址的

跳过去了,它怎么采集 新的内容地址呢?
secendday 发表于 2009-3-16 09:42


系统 采集发布设置 将10条的限制改为0,则一直判断
 楼主| 发表于 2009-3-16 09:48:13 | 显示全部楼层
系统 采集发布设置 将10条的限制改为0,则一直判断
火车头 发表于 2009-3-16 09:44

多谢
我就是改成了0,但就象我顶楼提出的问题一样,它要判断所有的3万多条已经采集过的数据,才能隔过已经采集的,去采集后来添加的几十条 新的数据,时间太长了,要好几个小时,
有没有办法 能让判定那三万多条已采集数据的时间 短一些,快一些。
 楼主| 发表于 2009-3-16 17:54:56 | 显示全部楼层
麻烦给看一下。
发表于 2009-7-14 15:18:55 | 显示全部楼层
帮你顶一下,这问题需要解决
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-15 09:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表