火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4553|回复: 1

几个问题和一些建议

[复制链接]
发表于 2007-1-30 23:57:22 | 显示全部楼层 |阅读模式
:) 近日无意间找到了火车头采集器,试用了一下,感觉不错,有几个问题和建议探讨一下:
1.cpu和内存占用实在比较大,采集时的CPU都是100%,内存也占了好多。之前也用ASP做过类似的采集程序,从来占用的CPU和内存都极少。
2.在采集过程中发现有些字符的处理有点问题:像”这一天 Ce jour-là “会变成”这一天 Ce jour-l%26#224;“,而”这些女人 För att inte tala om alla dessa kvinnor “就变成”这些女人 F%26#246;r att inte tala om alla dessa kvinnor“,好像是编码过程有点问题。
3.提个建议,能不能在任务中插入嵌套的采集,类似于图片下载那样嵌在一个标签规则里边。比如说我抓取一部电影的信息,获取了影片名,导演,主演,内容简介等等...,但是内容简介并不完整,它还有一个“详细内容”的链接,只有抓取“详细内容”那个页面的内容才是完整的。而用现在的这种模式是无法一次实现的。但如果像图片下载那样,在得到“详细内容”链接后,再对链接页面做采集从而得到完整的内容,就可以实现了。请作者考虑一下。

[ 本帖最后由 iqa001 于 2007-1-30 23:59 编辑 ]
发表于 2007-1-31 09:38:39 | 显示全部楼层
你提的建议都好!但是有一条,火车毕竟是软件,只能尽量减少内存占用量,不过,你说的ASP。PHP的采集器我也用过,但是功能上差的就是很远了!不过,你可以结合起来用!火车也在不断完善!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 11:07

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表