jackton 发表于 2007-12-19 00:24:06

应该考虑考虑火车头采集器的性能方面!!

当SpiderResult.mdb数据超过8000条以上,Site_1.mdb数据超过5W条以上. 采集速度严重下降.

SpiderResult.mdb现在解决的方法只有清空.

Site_1.mdb 却不能.因为会重复采集.

我想应该增加一个可以删除特定时间内的数据.比如可以删除1小时以前甚至10分钟以前的数据. 这样会方便一些.不过也不是很完美. 呵呵

要是数据库达到一定容量后可以自动分开那就更好了. 比如Site_1.mdb到1M的时候会在自动建立一个新的Site_1_1.mdb.....Site_1_100.mdb 我是这样想的.如果真正能实现的话应该需要很多时间和精力.ali2ls

程序的BUG方面相信火车头大哥会慢慢修正.

sushy 发表于 2007-12-19 00:42:12

这也是mdb数据库的缺陷了。像楼主有编辑数据库模块,就比较简单了。下载一个mssql,直接导入mssql,速度是相当快的。

我采集6w个文件,分割成6个任务来采集的。不然的话,速度就像蜗牛。可以看到SpiderResult.mdb所在的文件下的那个锁是一直锁着,写不进去。

但是如果是mssql,就不存在这个问题。其实mssql发布的话也很简单的。

建议楼主一试。在没有更进一步的更新之前,只能采用妥协和折中的办法了。

vus520 发表于 2007-12-19 01:28:13

要删除以个小时前的地址,估计是十分难的一个问题!

呵呵!

天知道你十分钟前采集了多少地址!!


不过,保留指定条数的地址,是很方便可以实现的!!

lbjyuer 发表于 2016-2-10 10:11:14

历史帖子回顾中。
页: [1]
查看完整版本: 应该考虑考虑火车头采集器的性能方面!!