发新话题
打印

[3.2版] 建议加入采集列表过滤功能.

建议加入采集列表过滤功能.

现在所有采集器的通病,为什么是通病? 因为大部分采集器都是仿造火车头去做,所以把火车头的一些毛病也给带上了.

列表有许多不需要的连接,应该过滤掉,而我奇怪的是为什么采集器不提供列表过滤功能,

而仅仅靠 必须包含 或不得包含 和页面区域匹配,根本无法完成特殊的采集..


举个最简单的例子

一个列表页面.

有一篇文章,,但这文章下面有一个阅读全文,,连接地址与文章地址一模一样,,仅仅靠那个必须包含,不得包含,功能根本无法过滤掉这些连接.

但采集器不管那些,该采集的都采集来..这样采集下来的文章连接就重复了一条..如果列表文章多,那么重复的垃圾数据量得有多大?


详细参考地址.http://www.d1999.com/SoftWare/List9_1.Html

看谁能把他无重复的把文章地址获取下来.


所以建议火车头加强列表获取连接的功能. 比如加入过滤规则...

或加强 <必须包含,不得包含>功能,,让这个功能支持多关键字过滤.而不是单一的一个关键字.

TOP

当然,这也确实有点麻烦!
不过,如果地址重复了,火车在采集地址列表时会过滤这些重复的地址!
请在采集地址时注意一下!

请设置 选项设置 系统设置 二级地址过滤!

另外,有一个很郁闷的事情,回复者为什么不能上传图片!!!

火车头,快来加分!!
火车采集器商业版 咨询、购买、售后支持等 :
火车采集器2008版系列教程正在陆续发布中 :  点击观看
提供高难度采集技术支持,完美实现全站转移,多栏目自动更新
火车采集器采集规则定制:[50元/条,质量保证]
火车采集器发布模块定制:[80元/条,质量保证]
火车采集器程序接口定制:[按程序难度议价,200起]
织梦图片集自动发布模块:[100元/个,自动分析图片代码、远程下载图片]
支持支付宝淘宝安全交易:Q Q: 130775 Mail:vu520@163.com ->查看更多联系方式

TOP

看不出这个有什么难的,一,地址重复的火车会过掉,二就算那个不是重复的,也可以正则采集同与不同的部份

TOP

我这个只是个简单的例子,,实际使用中会碰到很多特殊的列表,,,许多垃圾连接无法过滤..

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.131175 second(s), 6 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-16 15:13 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档