火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2569|回复: 4

09重大意见,请火车头亲自过目!!

[复制链接]
发表于 2009-2-13 15:31:42 | 显示全部楼层 |阅读模式
我见09的改版说明中26点对这方面有考虑,就是大数据量的采集,可以直接绕过本地存储(说实话sqlite也不怎么样,过10万的数据量速度和蜗牛是的),而直接入库,这点我十分赞同。

然随之而来的一个问题是,大数据量的采集往往伴随着大量的文章地址。

比如说,我要采集一个站所有的文章,先用火车把所有栏目列表和页数采出来,再导出编辑为这种格式:

http://baidu.com/?page=<1,555,1,false,false>(尖括号内容由我自行添加)

再次导入这种格式的地址进行采集,由于每行地址都被火车转化成一个地址的循环(上面这个地址自动转化成page后面为1到555,共555条地址)。

当我导入十分多的这种地址,08版会造成火车假死,因为这部分每行地址的循环处理是相当大的工作。

我相信,大数据量的采集,除了在发布的时候改善(如我十分喜欢并且梦寐以求的26点),也要在处理大数据量的地址处做出相应的改善(可以先计算<>中的循环总数,再按照采集速度自动处理)。

我仅代表自己,一个小小的用户,对火车头软件的专业精神表示真诚感谢,握手!同时希望火车头本人对这个意见予以重视。
发表于 2009-2-13 16:39:35 | 显示全部楼层
顶起来····
发表于 2009-2-13 17:11:58 | 显示全部楼层
有这方面的问题,要重视
发表于 2009-2-13 17:16:43 | 显示全部楼层
2009在生成这种地址方面有改进。请问你有测试过吗?是否满意
 楼主| 发表于 2009-2-13 17:29:29 | 显示全部楼层
很抱歉,比较忙碌,请问您是否可以pm我地址对这方面进行一下专门测试?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-20 21:30

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表