火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 13061|回复: 11

火车头采集网址速度实在太慢了~

 关闭 [复制链接]
发表于 2009-10-2 01:27:20 | 显示全部楼层 |阅读模式
本帖最后由 qwerqwer 于 2009-10-3 02:48 编辑

用的是2009 SP4的版本。在采集列表收集url的时候,差不多1秒一条...
一页十条数据,居然用了6-7秒,实在是叹为观止。你随便用个低效的语言去处理一个网页也不至于慢到这种程度吧。
用PHP获取一个页面,并用正则表达式提取100个链接放进数据库,这整个所有的过程应该都是在毫秒级的。

看了几个关于说火车头慢的帖子,管理员的回复有以下几个方面:

1、access速度太慢,这个压根就是乱说。用ASP写一条语言录入100条数据,那根本就是毫秒级的。因为access没有建立索引,在某些情况下,反而会比SQL更快。SQL胜在并发能力强大,能够建立索引,支持事务、存储过程,等高级功能。可以处理海量数据(百万级别以上)只要程序写的不会太糟,access支持10万级别的信息一点问题都没有。

2、一次性不要处理太多东西,应该小于4000条...这更是胡扯了。因为在刚开始采集的时候,数据库里几乎就是0信息,你从何谈数据量太大?而且就区区几千数据量还太大...说出来不丢人吗?

3、购买付费版。这个放到后面再说

我的结论:很简单,要么就是火车头本身程序的代码质量有很大问题,起码有80%以上的可优化空间。要么呢,就是针对免费版进行了速度上的限制,比如采一条sleep半秒钟。

我的目的:也很简单,我看上了火车头的简单易用,功能完善。可以购买付费版,但是你得告诉我采集速度出奇地慢是不是针对免费版故意增加的限制。如果是的,那我很高兴,我会购买付费版。如果并没有针对免费版在性能方面人为地增加限制的话,而只是能支持SQL的话。那么没办法,效率低到令人惊叹的东西,肯定是没法用的。我要采集的是百万以上的数据,而且几乎不需要提取任何东西,所以也不会出现大量的通配符。以这种速度的话,得好几天了。不敢想。

我的硬件和网络环境:服务器,托管于机房,15M网络。ping目标服务器平均都在6ms以内,非常快。硬件配置也完全不需要担心。

我的情况:原来是用手写蜘蛛采集的~基本上10分钟以内可以把某下载站的8000条软件信息全部采集回来,提取5个内容,根据网址检测是否已存在。结果暂存access数据库中。可是由于可能会要定时采集上百个网站,所以想寻求一个更通用的软件。于是找到了火车头~其他都很满意,就是这个效率...实在是慢到了不可思议的地步。

最后的一个额外建议:采集入库的时候,有时候会遇到采集失败的内容,最好是保存下来,供再次采集用。
发表于 2009-10-2 11:27:22 | 显示全部楼层
ali96ls路过一下 占位卖瓜子
 楼主| 发表于 2009-10-2 20:40:59 | 显示全部楼层
靠,注意了一下火车头的采集流程...简直可以用弱智来形容了。
居然先一条条采集到数据库里,然后再读取数据库,一条一条地入库...

明明可以把url放到内存里先,比较完毕后一条条直接采集入库。

采集的时候居然比入库还慢,受不了。
发表于 2009-12-29 22:44:15 | 显示全部楼层
sp4版好像比sp2版慢好多,这个现象应该值得注意
发表于 2009-12-29 22:55:13 | 显示全部楼层
快有什么用.??????
发表于 2010-1-12 00:23:30 | 显示全部楼层
关注了一下,官方没人解答。。
发表于 2010-1-17 13:18:17 | 显示全部楼层
火车头肯定是故意对免费版做了限制,access插入100条数据不到1秒钟的。测试过了
发表于 2010-1-17 16:41:01 | 显示全部楼层
楼上的,你用的标准版,效率怎么样?
发表于 2010-2-23 09:57:17 | 显示全部楼层
我现在在用企业版,也并不觉得有多快,采网址、采内容、入库,没有爽的感觉,特别是采网址和入库,不应该是现在这种速度的。效率啊,性能啊。
发表于 2010-10-26 12:56:23 | 显示全部楼层
路过没有在第一步没有缩略图等标签,可以测试后,导出1级网址,再导入文本,采集深度改为0,这样效率就高了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 23:49

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表