lwkyy 发表于 2007-11-23 11:44:40

火车头还欠缺的地方

这几天要采一个网站的数据,知道火车头的名气挺大的,所以就选择了用火车头来采集,但在使用时让我很困惑,一些最基本的功能都都没有,真的,很郁闷。

不知是因为这是免费版的原因还是什么,不管了,先说欠缺的地方:

1、不支持直接直接采集内容页

我在”编辑任务“的窗口中看到有关设置,说只要把”采集网址深度“设置为0就当成内容页,但我发现没有用。

情况是这样的,我要采集的网站的内容页很有规则,一下子就可以把所有的内容页的地址写出来,所有我想直接导入自己生成的内容页来进行采集,

这样也省去了很多事;但火车头不行。

没办法,只好投机取巧:先用普通的方法采集一点点地址,然后我在火车头程序目录 Data\任务名 里找到 SpiderResult.mdb 这个文件,用access打开,看到里面的数据很有规则,

改了改就成了采集内容页的数据了,呵呵,

要注意的是一定要把“已采”列的值设置成0 ,这样再次打开火车头,只采集内容就可以了,呵呵,算是有办法解决吧!

2、采集内容规则不名,说明文字不明

我对正则有一定的了解,所以为了费事就想采用正则去匹配我要的内容,但发现火车头(刚开始用的是SP3版本)对正则使用方法说明不明,帮助也是指向论坛,进入指定的页面也没有有关如何使用的介绍(注意我说的是如何使用,不是正则的相关知识。),里面指的“参数”是什么意思我到现在也没有理解,也没有看到说明(也许是我没找到吧)。

没办法,去下了个SP2的版本,呵呵,里面有说明,也有使用的方法,自已写了个式子一下子就找到要的东东了,呵呵,而且我还发现这样的式子也能在SP3里用,但不知那“参数”是怎么用的,相信加入“参数”是想完成更复杂的功能,但得告诉我们怎么用。
<td align=left ><P>词条详细 >> (?<content>[^:]* ?):.*</P></td>

3、自定义入库不能使用

数据采集到了总得导入自己的数据库里吧,要不然还不是等于零。我用的是自己写的MySQL数据库,但我始终没有办法导入到自己的数据库中,这下可就郁闷了,早知道是这样我就不用火车头了,麻烦,没办法只好先导出为txt文档,然后自己再写成插入mysql语句,通过PHPmyAdmin导入我自己的数据库中。

这三点是我在初次使用火车头时遇到的问题,可能这些问题早有更好的办法解决,或火车头有这些功能我没有发现,呵呵,那就对不起了。本人没有诋毁火车头的意思,毕竟免费的采集工具能做成这样已经相当不错了。

rq204 发表于 2007-11-23 12:20:13

1.应是你设置的问题 :lol 从没发现0级网址不能用..

2.会正则的不多,会的知道是什么意思,火车里用<content>获取内容.那个参数,是用来组合结果的.比如你可以把内容和标题组合在一起.

3.自定义入库可以使用,如果您愿意支持火车采集器的发展,请购买VIP版本,里边有自定义的接口.您也可以单独购买入库编辑器..

火车头 发表于 2007-11-24 11:58:04

你说的第二点,正则录象教程:http://www.locoy.com/document/locoy_regex_study.rar
页: [1]
查看完整版本: 火车头还欠缺的地方