no1se 发表于 2012-2-14 16:26:33

能只采集之前不符合采集规则而没采集但更新后符合采集规则的网址内容么?

目前有一个网站的采集遇到了问题
这个网站目前定期会上一些新的内容页上来,但是部分内容页只是个空架子,里面没有实质内容
我的采集规则是过滤这部分空内容网址不采集
但是通常在一段时间之后,他会将原空的内容页重新编辑,而此时的内容是我需要采集到的了

现在问题来了,由于这个URL之前采集过,早就存在于网址库内了,所以直接当做是重复采集就pass了。。。
那么如果我设置采集任务为不检测重复网址,那么问题是,所有的网页都会被重新采集一遍并且入库。。。

那么有没有办法只采集更新后的这些页面呢?还是火车头无法实现这个功能,只能手动通过数据库去重后再发布

页: [1]
查看完整版本: 能只采集之前不符合采集规则而没采集但更新后符合采集规则的网址内容么?