发新话题
打印

对火车头采集器的几点建议.

对火车头采集器的几点建议.

昨天第一次使用火车头,说点建议,我使用的是1.2.1版本,2.0不知道哪里下,不清楚是否有这样的问题。
1、采集的时候遇到错误页面(不符合采集规则的页面),批量采集就会卡住。我觉得这个问题应该很好解决,遇到不符合规则的页面,规则里的标签就全赋值为空不就可以了,为什么要卡在那里呢?

2、空格丢失的问题。1.2.1版本加入了URLencode发送post数据,但是怎么只对默认的内容标签有用呢?其他标签也需要啊,这个程序上实现应该也很容易吧?所有标签都urlencode不就可以了?

3、对于网址规则里能不能加入一个规则,就是判断title内容是否包含某关键词。如果有这个功能,就能简单实现定向采集了,比如说我只采集title包含“火车头”这个关键词的页面。这个功能相信会非常受站长喜欢。

TOP

1、可能是因为线程死掉了,火车头没有自动重启线程。这时,现在只能将程序全部停止,然后开始
当目前网址访问出错时,就会出现这种情况。在2。0,只要重新启动就行了。1。21如果重新启动会重复采集
2、同意!
3、是啊,这功能很好。当某采集的内容,包含或不包含某内容时,本次采集才有效,否则忽略。
例如:假如我要采集图片,当图片内容不是"NO PIC"时,才post到cms模块,这个功能很好。建议火车头加上

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.126790 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-11 19:46 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档