几个问题和一些建议
:) 近日无意间找到了火车头采集器,试用了一下,感觉不错,有几个问题和建议探讨一下:1.cpu和内存占用实在比较大,采集时的CPU都是100%,内存也占了好多。之前也用ASP做过类似的采集程序,从来占用的CPU和内存都极少。
2.在采集过程中发现有些字符的处理有点问题:像”这一天 Ce jour-là “会变成”这一天 Ce jour-l%26#224;“,而”这些女人 För att inte tala om alla dessa kvinnor “就变成”这些女人 F%26#246;r att inte tala om alla dessa kvinnor“,好像是编码过程有点问题。
3.提个建议,能不能在任务中插入嵌套的采集,类似于图片下载那样嵌在一个标签规则里边。比如说我抓取一部电影的信息,获取了影片名,导演,主演,内容简介等等...,但是内容简介并不完整,它还有一个“详细内容”的链接,只有抓取“详细内容”那个页面的内容才是完整的。而用现在的这种模式是无法一次实现的。但如果像图片下载那样,在得到“详细内容”链接后,再对链接页面做采集从而得到完整的内容,就可以实现了。请作者考虑一下。
[ 本帖最后由 iqa001 于 2007-1-30 23:59 编辑 ] :lol 你提的建议都好!但是有一条,火车毕竟是软件,只能尽量减少内存占用量,不过,你说的ASP。PHP的采集器我也用过,但是功能上差的就是很远了!不过,你可以结合起来用!火车也在不断完善!
页:
[1]