3.2版用着还算顺手，但关于“采网址”还望指教！

redhat028 · 发表于 2007-9-24 15:51:43

在“采网址”的过程地问题：

在火车头的主程序编辑采集任务，在“采集网址规则”加入1000条网址就出现火车头主程序“死掉”。（采集深度为0）

后来发现采集的网址好像都放在PageURL/Site_2.mdb 的数据库里。我打开数据库看到一个PageURL的表。里面有字段 Urls 和 JobId。初步发现Urls字段里装的就是采集的网址，而Jobid指站点编号。

因为想加入大于1000条或者更多的网址，比如十万。但通过火车头主程序加入后，然后通过采集网址，一旦点"开始",对我的2G内存，1.9x2的CPU，一定是出现“死掉”。所以就想着直接把自己通过其他软件编辑好的网址列表倒入到PageURL/Site_2.mdb里，成功导入，并且修改了JobId的值，对应任务。目的想不通过“采网址”而直接“采集内容”，但没成功！

哪位兄弟知道的话，望赐教！谢谢。急用

美美论坛 · 发表于 2007-9-24 15:56:22

传说中的板凳

minsun · 发表于 2007-9-24 16:05:06

我一次性采超过3000条信息就差不多要挂了

火车头 · 发表于 2007-9-25 05:40:09

PageUrl里的Site_1.mdb 是装的地址库
真正的任务数据库在Data/你的任务名/SpiderResult.mdb内

redhat028 · 发表于 2007-9-25 07:28:48

好，谢谢火车头，昨天仔细看了一下，已经搞定！谢谢：）

在SpiderResult.mdb里的PageUrl导入了一百万条数据地址，运行火车头后，采集内容运行很慢！（每条采集之间的时间延长了？）。

后来把一百万改成二十万，速度快起来了。初步估计是百万数据一次性载入数据过多，但20万的数据不再话下，采集内容速度正常！

综上：为预防火车头采集网址的时候卡4，可以用其他更好算法的软件先把网址列出来！再导入SpiderResult.mdb里的PageUrl字段。

目前我尝试的一次性网址数据采集20万，不知道各位还有什么其他高招，能使网址达到百万而速度不慢？

baishuzhan · 发表于 2007-9-25 14:23:10

在SpiderResult.mdb里的PageUrl导入了一百万条数据地址，
N人.

帐号		自动登录	找回密码
密码			加入会员

3.2版用着还算顺手，但关于“采网址”还望指教！

浏览过的版块