woody 发表于 2009-2-13 15:31:42

09重大意见,请火车头亲自过目!!

我见09的改版说明中26点对这方面有考虑,就是大数据量的采集,可以直接绕过本地存储(说实话sqlite也不怎么样,过10万的数据量速度和蜗牛是的),而直接入库,这点我十分赞同。

然随之而来的一个问题是,大数据量的采集往往伴随着大量的文章地址。

比如说,我要采集一个站所有的文章,先用火车把所有栏目列表和页数采出来,再导出编辑为这种格式:

http://baidu.com/?page=<1,555,1,false,false>(尖括号内容由我自行添加)

再次导入这种格式的地址进行采集,由于每行地址都被火车转化成一个地址的循环(上面这个地址自动转化成page后面为1到555,共555条地址)。

当我导入十分多的这种地址,08版会造成火车假死,因为这部分每行地址的循环处理是相当大的工作。

我相信,大数据量的采集,除了在发布的时候改善(如我十分喜欢并且梦寐以求的26点),也要在处理大数据量的地址处做出相应的改善(可以先计算<>中的循环总数,再按照采集速度自动处理)。

我仅代表自己,一个小小的用户,对火车头软件的专业精神表示真诚感谢,握手!同时希望火车头本人对这个意见予以重视。

fly86413 发表于 2009-2-13 16:39:35

顶起来····

yscdc 发表于 2009-2-13 17:11:58

有这方面的问题,要重视

火车头 发表于 2009-2-13 17:16:43

2009在生成这种地址方面有改进。请问你有测试过吗?是否满意

woody 发表于 2009-2-13 17:29:29

很抱歉,比较忙碌,请问您是否可以pm我地址对这方面进行一下专门测试?
页: [1]
查看完整版本: 09重大意见,请火车头亲自过目!!