taikou 发表于 2007-12-23 10:45:40

建议:采集网址规则制定的时候增加内容判定

在采集网址规则制定的时候,有对文章页面内容包含网址的判定
但在使用过程中,经常发现有很多大网站会把广告内容加在列表中,并且有时候让你根本无法仅仅通过网址来判定,这就造成了很多垃圾数据;但出于广告发布者效果的考虑,那些大网站很多会在标题中用文字加以注明

如果能在判定网址规则的同时也能对文字内容作判定,最终绝对是否爬取,那就完美了

同意以上建议的帮定一下啊

vus520 发表于 2007-12-23 10:58:40

缩略图标签可以试试

lbjyuer 发表于 2016-2-10 10:05:19

爪,以后学习下。。
页: [1]
查看完整版本: 建议:采集网址规则制定的时候增加内容判定