应该考虑考虑火车头采集器的性能方面!!
当SpiderResult.mdb数据超过8000条以上,Site_1.mdb数据超过5W条以上. 采集速度严重下降.SpiderResult.mdb现在解决的方法只有清空.
Site_1.mdb 却不能.因为会重复采集.
我想应该增加一个可以删除特定时间内的数据.比如可以删除1小时以前甚至10分钟以前的数据. 这样会方便一些.不过也不是很完美. 呵呵
要是数据库达到一定容量后可以自动分开那就更好了. 比如Site_1.mdb到1M的时候会在自动建立一个新的Site_1_1.mdb.....Site_1_100.mdb 我是这样想的.如果真正能实现的话应该需要很多时间和精力.ali2ls
程序的BUG方面相信火车头大哥会慢慢修正. 这也是mdb数据库的缺陷了。像楼主有编辑数据库模块,就比较简单了。下载一个mssql,直接导入mssql,速度是相当快的。
我采集6w个文件,分割成6个任务来采集的。不然的话,速度就像蜗牛。可以看到SpiderResult.mdb所在的文件下的那个锁是一直锁着,写不进去。
但是如果是mssql,就不存在这个问题。其实mssql发布的话也很简单的。
建议楼主一试。在没有更进一步的更新之前,只能采用妥协和折中的办法了。 要删除以个小时前的地址,估计是十分难的一个问题!
呵呵!
天知道你十分钟前采集了多少地址!!
不过,保留指定条数的地址,是很方便可以实现的!! 历史帖子回顾中。
页:
[1]