关于采集网址重复的问题
采集一个网站,第一次采集程序会全部采集并发布,这个是正常的,但是我要采集的网页他的同一个页面数据需要更新很多次,但是程序记录了已经采集的网址,遇到重复的直接跳过了,不采集。这样导致很多数据采集不到,但是如果去掉程序中,检测重复网址,那么他又会从新全部采集一次,因为更新的频率较高,每次都从新采集一次,在发表一次,这样又非常的不爽。
现实实例:比如我们一个网站一个信息页面,他不是一次全部加注完全,而是几个小时或者几天都要往同一个页面增加信息,还有例如电影站,每天都要更新剧集,程序只采集一次,就有很多信息采集不到。
不晓得这个问题官方是怎么解决的,请求帮助!又或者是这个问题早已解决,只是解决的办法没有被我发现,请求给予帮助!
如果还没有办法解决的话,官方能不能增加一个自动筛选的功能,比如用户可以设置,对于网址库中已经存在的同一个网址在多少小时多少分钟之内不在采集,过了这个时间程序就自动再次采集。这样就不会漏采集信息了。 沙发,先占位编辑 每天都要更新剧集
这种一般用免登陆发布接口在发布提交的时候判断结果了 来学习了沙发呵呵!
页:
[1]