|
现在所有采集器的通病,为什么是通病? 因为大部分采集器都是仿造火车头去做,所以把火车头的一些毛病也给带上了.
列表有许多不需要的连接,应该过滤掉,而我奇怪的是为什么采集器不提供列表过滤功能,
而仅仅靠 必须包含 或不得包含 和页面区域匹配,根本无法完成特殊的采集..
举个最简单的例子
一个列表页面.
有一篇文章,,但这文章下面有一个阅读全文,,连接地址与文章地址一模一样,,仅仅靠那个必须包含,不得包含,功能根本无法过滤掉这些连接.
但采集器不管那些,该采集的都采集来..这样采集下来的文章连接就重复了一条..如果列表文章多,那么重复的垃圾数据量得有多大?
详细参考地址.http://www.d1999.com/SoftWare/List9_1.Html
看谁能把他无重复的把文章地址获取下来.
所以建议火车头加强列表获取连接的功能. 比如加入过滤规则...
或加强 <必须包含,不得包含>功能,,让这个功能支持多关键字过滤.而不是单一的一个关键字. |
|