火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4316|回复: 3

应该考虑考虑火车头采集器的性能方面!!

[复制链接]
发表于 2007-12-19 00:24:06 | 显示全部楼层 |阅读模式
当SpiderResult.mdb数据超过8000条以上,Site_1.mdb数据超过5W条以上. 采集速度严重下降.

SpiderResult.mdb现在解决的方法只有清空.

Site_1.mdb 却不能.因为会重复采集.

我想应该增加一个可以删除特定时间内的数据.比如可以删除1小时以前甚至10分钟以前的数据. 这样会方便一些.不过也不是很完美. 呵呵

要是数据库达到一定容量后可以自动分开那就更好了. 比如Site_1.mdb到1M的时候会在自动建立一个新的Site_1_1.mdb.....Site_1_100.mdb 我是这样想的.如果真正能实现的话应该需要很多时间和精力.

程序的BUG方面相信火车头大哥会慢慢修正.
发表于 2007-12-19 00:42:12 | 显示全部楼层
这也是mdb数据库的缺陷了。像楼主有编辑数据库模块,就比较简单了。下载一个mssql,直接导入mssql,速度是相当快的。

我采集6w个文件,分割成6个任务来采集的。不然的话,速度就像蜗牛。可以看到SpiderResult.mdb所在的文件下的那个锁是一直锁着,写不进去。

但是如果是mssql,就不存在这个问题。其实mssql发布的话也很简单的。

建议楼主一试。在没有更进一步的更新之前,只能采用妥协和折中的办法了。
发表于 2007-12-19 01:28:13 | 显示全部楼层
要删除以个小时前的地址,估计是十分难的一个问题!

呵呵!

天知道你十分钟前采集了多少地址!!


不过,保留指定条数的地址,是很方便可以实现的!!
发表于 2016-2-10 10:11:14 | 显示全部楼层
历史帖子回顾中。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 16:16

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表