sushy 发表于 2009-1-6 15:00:59

采集网址规则能否改改

现在的采集网址是将所有页面提取的网址全部提取到内存中,然后再一条一条入库,很容易高CPU,高内存。采到内存这段时间在进度条上不显示,整个是一个假死的状态。

网址入库的时候,突然遭遇停电或者其他原因重启计算机,原来的采集无效,又要重新采集,特别是对国外网站的采集,本来网速就慢,重采很耽误时间。

能否改一下,采网址的时候,边采集边入库。而不是所有都采集完成再入库。

清水常流 发表于 2009-1-6 15:44:44

这样也有好处呀,就是采到本地后,可以修改的,。。。

sushy 发表于 2009-1-6 23:22:22

楼上没明白我说的是什么,我好像没用之乎者也吧。

我说的是采内容的前面一步——采网址。

bd540 发表于 2009-1-9 16:17:31

答非所问,我理解楼主的想法,采一条网址,采一条数据,很好,不怕中间有事。

火车头 发表于 2009-1-10 20:44:02

新版其实已经修改成西楼所说的了~~

hefc 发表于 2013-5-15 13:17:05

。。。。。。。。

lbjyuer 发表于 2016-2-10 16:25:56

历史帖子回顾中。
页: [1]
查看完整版本: 采集网址规则能否改改