采集网址规则能否改改
现在的采集网址是将所有页面提取的网址全部提取到内存中,然后再一条一条入库,很容易高CPU,高内存。采到内存这段时间在进度条上不显示,整个是一个假死的状态。网址入库的时候,突然遭遇停电或者其他原因重启计算机,原来的采集无效,又要重新采集,特别是对国外网站的采集,本来网速就慢,重采很耽误时间。
能否改一下,采网址的时候,边采集边入库。而不是所有都采集完成再入库。 这样也有好处呀,就是采到本地后,可以修改的,。。。 楼上没明白我说的是什么,我好像没用之乎者也吧。
我说的是采内容的前面一步——采网址。 答非所问,我理解楼主的想法,采一条网址,采一条数据,很好,不怕中间有事。 新版其实已经修改成西楼所说的了~~ 。。。。。。。。 历史帖子回顾中。
页:
[1]