火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2682|回复: 3

关于采集网址重复的问题

[复制链接]
发表于 2013-6-13 16:30:08 | 显示全部楼层 |阅读模式
     采集一个网站,第一次采集程序会全部采集并发布,这个是正常的,但是我要采集的网页他的同一个页面数据需要更新很多次,但是程序记录了已经采集的网址,遇到重复的直接跳过了,不采集。这样导致很多数据采集不到,
   但是如果去掉程序中,检测重复网址,那么他又会从新全部采集一次,因为更新的频率较高,每次都从新采集一次,在发表一次,这样又非常的不爽。
    现实实例:比如我们一个网站一个信息页面,他不是一次全部加注完全,而是几个小时或者几天都要往同一个页面增加信息,还有例如电影站,每天都要更新剧集,程序只采集一次,就有很多信息采集不到。
     不晓得这个问题官方是怎么解决的,请求帮助!又或者是这个问题早已解决,只是解决的办法没有被我发现,请求给予帮助!
    如果还没有办法解决的话,官方能不能增加一个自动筛选的功能,比如用户可以设置,对于网址库中已经存在的同一个网址在多少小时多少分钟之内不在采集,过了这个时间程序就自动再次采集。这样就不会漏采集信息了。
 楼主| 发表于 2013-6-13 16:31:06 | 显示全部楼层
沙发,先占位编辑
发表于 2013-6-13 23:02:43 | 显示全部楼层
每天都要更新剧集

这种一般用免登陆发布接口在发布提交的时候判断结果了
发表于 2013-6-16 00:44:05 | 显示全部楼层
来学习了沙发呵呵!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-16 06:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表