找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2837|回复: 1

很多问题啊,一个一个来说

[复制链接]
发表于 2007-9-25 09:58:05 | 显示全部楼层 |阅读模式
1、在任务编辑-〉采集内容规则,这个界面。具有自定义字段、测试等功能非常好,但是应该具有能自定义分析是否成功的规则设定,这样,我们爬取过程中就会知道那些页面没有分析成功。例如,由于登陆session server端timeout,造成很多页面资料不可见,在爬取的过程马上就能知道;又例如目标网站的版面进行了更改,也马上能知道。
2、任务暂停、续爬,有问题,首先是暂停了很久以后才真正停下来(url列表停止增加),续爬根本没有用,提示任务在等待队列中就完事了。非常莫名其妙。停止以后只能重新开始爬,那么url要重新获取,真是费时,特别是page非常多的时候。
3、没有办法定义url重新爬取的规则。例如有些页面可能不是新闻,而是带有特定数据的,该页面每天更新。

还有好多以后慢慢细说。

总体来说,距离非常成熟的爬取器还有一段路要走。从灵活性上火车提供了对内容的自定义分析,这个非常好,也非常傻瓜化,但是从爬取流程、url db的更新上来说,不妨参考一下heritrix 这样大牌的opensource项目。也许更有启发。

谨代表个人意见,有可能是没有深入了解火车,请拍砖
发表于 2007-9-25 13:00:46 | 显示全部楼层


  支持啊

也请重视http://bbs.locoy.com/spider-18377-1-1.html
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表