很多问题啊,一个一个来说
1、在任务编辑-〉采集内容规则,这个界面。具有自定义字段、测试等功能非常好,但是应该具有能自定义分析是否成功的规则设定,这样,我们爬取过程中就会知道那些页面没有分析成功。例如,由于登陆session server端timeout,造成很多页面资料不可见,在爬取的过程马上就能知道;又例如目标网站的版面进行了更改,也马上能知道。2、任务暂停、续爬,有问题,首先是暂停了很久以后才真正停下来(url列表停止增加),续爬根本没有用,提示任务在等待队列中就完事了。非常莫名其妙。停止以后只能重新开始爬,那么url要重新获取,真是费时,特别是page非常多的时候。
3、没有办法定义url重新爬取的规则。例如有些页面可能不是新闻,而是带有特定数据的,该页面每天更新。
还有好多以后慢慢细说。
总体来说,距离非常成熟的爬取器还有一段路要走。从灵活性上火车提供了对内容的自定义分析,这个非常好,也非常傻瓜化,但是从爬取流程、url db的更新上来说,不妨参考一下heritrix 这样大牌的opensource项目。也许更有启发。
谨代表个人意见,有可能是没有深入了解火车,请拍砖 :ali10ls
支持啊
也请重视http://bbs.locoy.com/spider-18377-1-1.html
页:
[1]