用了十几年了,花几分钟夸下火车头:)
最早接触采集,还是在落伍者论坛的时候,那时候还是垃圾站的春天,采集器也开始萌芽,记得最早用的是一个叫易采的工具,貌似是PHP写的,设置简单,只能进行最简单结构的数据抓取,而且效率很低。我不记得当时有没有火车头,不过我记得早年我接触火车头,总觉得火车太复杂,以至于好几年都没怎么用过。后来垃圾站不吃香了,个人站长也没得玩了,自己找了一份正经工作,有一项很重要的工作就是日常数据监测,咱做过站长的人自然不能跟别人一样每天去别人网站上打开来看,好歹弄个定时抓取之类的功能,这时候就想起了火车了。还别说,效果出奇的好,从此之后,火车一直陪到我现在。
期间也用了很多的其他家采集器,什么八爪鱼啦,集搜客啦,et采集之类的,都用了一遍,整体来说,还是没法和火车比,当然,大多数人可能只用到了火车10%不到的功能,火车的配置确实很强大,不过配置项都隐藏在很深处,需要人们在使用中逐渐发掘。比如post功能,之前只会使用get爬取,自从用了post爬内页后,感觉真香。这里也给火车一个建议,目前火车post获取内容页是很不方便的,希望能改良下,降低使用post的门槛。
目前自己创业几年,从事搜索引擎侧的业务,很多时候都需要做数据抓取和竞争分析,可以说火车是我每天必须打开的伙伴,确实很给力,感谢!
真好,感谢支持!
页:
[1]