几个问题和一些建议

iqa001 发表于 2007-1-30 23:57:22

:) 近日无意间找到了火车头采集器，试用了一下，感觉不错，有几个问题和建议探讨一下：
1.cpu和内存占用实在比较大，采集时的CPU都是100%，内存也占了好多。之前也用ASP做过类似的采集程序，从来占用的CPU和内存都极少。
2.在采集过程中发现有些字符的处理有点问题：像”这一天 Ce jour-là “会变成”这一天 Ce jour-l%26#224;“，而”这些女人 För att inte tala om alla dessa kvinnor “就变成”这些女人 F%26#246;r att inte tala om alla dessa kvinnor“，好像是编码过程有点问题。
3.提个建议，能不能在任务中插入嵌套的采集，类似于图片下载那样嵌在一个标签规则里边。比如说我抓取一部电影的信息，获取了影片名，导演，主演，内容简介等等...，但是内容简介并不完整，它还有一个“详细内容”的链接，只有抓取“详细内容”那个页面的内容才是完整的。而用现在的这种模式是无法一次实现的。但如果像图片下载那样，在得到“详细内容”链接后，再对链接页面做采集从而得到完整的内容，就可以实现了。请作者考虑一下。

[ 本帖最后由 iqa001 于 2007-1-30 23:59 编辑 ]

xyyfx 发表于 2007-1-31 09:38:39

:lol 你提的建议都好！但是有一条，火车毕竟是软件，只能尽量减少内存占用量，不过，你说的ASP。PHP的采集器我也用过，但是功能上差的就是很远了！不过，你可以结合起来用！火车也在不断完善！

页: [1]

火车采集器软件交流官方论坛's Archiver

几个问题和一些建议