建议加入采集列表过滤功能.

飞机头 · 发表于 2007-11-5 14:15:45

现在所有采集器的通病,为什么是通病? 因为大部分采集器都是仿造火车头去做,所以把火车头的一些毛病也给带上了.

列表有许多不需要的连接,应该过滤掉,而我奇怪的是为什么采集器不提供列表过滤功能,

而仅仅靠必须包含或不得包含和页面区域匹配,根本无法完成特殊的采集..

举个最简单的例子

一个列表页面.

有一篇文章,,但这文章下面有一个阅读全文,,连接地址与文章地址一模一样,,仅仅靠那个必须包含,不得包含,功能根本无法过滤掉这些连接.

但采集器不管那些,该采集的都采集来..这样采集下来的文章连接就重复了一条..如果列表文章多,那么重复的垃圾数据量得有多大?

详细参考地址.http://www.d1999.com/SoftWare/List9_1.Html

看谁能把他无重复的把文章地址获取下来.

所以建议火车头加强列表获取连接的功能. 比如加入过滤规则...

或加强 <必须包含,不得包含>功能,,让这个功能支持多关键字过滤.而不是单一的一个关键字.

vus520 · 发表于 2007-11-5 14:21:48

当然，这也确实有点麻烦！
不过，如果地址重复了，火车在采集地址列表时会过滤这些重复的地址！
请在采集地址时注意一下！

请设置　选项设置　系统设置　二级地址过滤！

另外，有一个很郁闷的事情，回复者为什么不能上传图片！！！

火车头，快来加分！！

pan7825 · 发表于 2007-11-6 00:51:43

看不出这个有什么难的,一,地址重复的火车会过掉,二就算那个不是重复的,也可以正则采集同与不同的部份

飞机头 · 发表于 2007-11-6 07:02:45

我这个只是个简单的例子,,实际使用中会碰到很多特殊的列表,,,许多垃圾连接无法过滤..

tutututusc2006 · 发表于 2010-6-17 22:51:35

烦人的很呢。我也遇到了。
必须包含的地址：/Article/(*).html
但是这样却同时采集了多级路径
如：/Article/1/1/1/SADA.html
问题就处在通配符上，如果通配符能够设置不同级别的就好了，像上面的，如果以/为边界作为通配符的作用范围，那就再好不过了

lbjyuer · 发表于 2016-2-8 23:47:12

支持火车。。。。历史帖子回顾中。

帐号		自动登录	找回密码
密码			加入会员