很多问题啊，一个一个来说

violin7 · 发表于 2007-9-25 09:58:05

1、在任务编辑-〉采集内容规则，这个界面。具有自定义字段、测试等功能非常好，但是应该具有能自定义分析是否成功的规则设定，这样，我们爬取过程中就会知道那些页面没有分析成功。例如，由于登陆session server端timeout，造成很多页面资料不可见，在爬取的过程马上就能知道；又例如目标网站的版面进行了更改，也马上能知道。
2、任务暂停、续爬，有问题，首先是暂停了很久以后才真正停下来（url列表停止增加），续爬根本没有用，提示任务在等待队列中就完事了。非常莫名其妙。停止以后只能重新开始爬，那么url要重新获取，真是费时，特别是page非常多的时候。
3、没有办法定义url重新爬取的规则。例如有些页面可能不是新闻，而是带有特定数据的，该页面每天更新。

还有好多以后慢慢细说。

总体来说，距离非常成熟的爬取器还有一段路要走。从灵活性上火车提供了对内容的自定义分析，这个非常好，也非常傻瓜化，但是从爬取流程、url db的更新上来说，不妨参考一下heritrix 这样大牌的opensource项目。也许更有启发。

谨代表个人意见，有可能是没有深入了解火车，请拍砖

mmpz · 发表于 2007-9-25 13:00:46

支持啊

也请重视http://bbs.locoy.com/spider-18377-1-1.html

帐号		自动登录	找回密码
密码			加入会员

很多问题啊，一个一个来说

浏览过的版块