火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1530|回复: 0

能只采集之前不符合采集规则而没采集但更新后符合采集规则的网址内容么?

[复制链接]
发表于 2012-2-14 16:26:33 | 显示全部楼层 |阅读模式
目前有一个网站的采集遇到了问题
这个网站目前定期会上一些新的内容页上来,但是部分内容页只是个空架子,里面没有实质内容
我的采集规则是过滤这部分空内容网址不采集
但是通常在一段时间之后,他会将原空的内容页重新编辑,而此时的内容是我需要采集到的了

现在问题来了,由于这个URL之前采集过,早就存在于网址库内了,所以直接当做是重复采集就pass了。。。
那么如果我设置采集任务为不检测重复网址,那么问题是,所有的网页都会被重新采集一遍并且入库。。。

那么有没有办法只采集更新后的这些页面呢?还是火车头无法实现这个功能,只能手动通过数据库去重后再发布

您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-7 20:25

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表