火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4270|回复: 2

建议:采集网址规则制定的时候增加内容判定

[复制链接]
发表于 2007-12-23 10:45:40 | 显示全部楼层 |阅读模式
在采集网址规则制定的时候,有对文章页面内容包含网址的判定
但在使用过程中,经常发现有很多大网站会把广告内容加在列表中,并且有时候让你根本无法仅仅通过网址来判定,这就造成了很多垃圾数据;但出于广告发布者效果的考虑,那些大网站很多会在标题中用文字加以注明

如果能在判定网址规则的同时也能对文字内容作判定,最终绝对是否爬取,那就完美了

同意以上建议的帮定一下啊
发表于 2007-12-23 10:58:40 | 显示全部楼层
缩略图标签可以试试
发表于 2016-2-10 10:05:19 | 显示全部楼层
爪,以后学习下。。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表