|
这几天要采一个网站的数据,知道火车头的名气挺大的,所以就选择了用火车头来采集,但在使用时让我很困惑,一些最基本的功能都都没有,真的,很郁闷。
不知是因为这是免费版的原因还是什么,不管了,先说欠缺的地方:
1、不支持直接直接采集内容页
我在”编辑任务“的窗口中看到有关设置,说只要把”采集网址深度“设置为0就当成内容页,但我发现没有用。
情况是这样的,我要采集的网站的内容页很有规则,一下子就可以把所有的内容页的地址写出来,所有我想直接导入自己生成的内容页来进行采集,
这样也省去了很多事;但火车头不行。
没办法,只好投机取巧:先用普通的方法采集一点点地址,然后我在火车头程序目录 Data\任务名 里找到 SpiderResult.mdb 这个文件,用access打开,看到里面的数据很有规则,
改了改就成了采集内容页的数据了,呵呵,
要注意的是一定要把“已采”列的值设置成0 ,这样再次打开火车头,只采集内容就可以了,呵呵,算是有办法解决吧!
2、采集内容规则不名,说明文字不明
我对正则有一定的了解,所以为了费事就想采用正则去匹配我要的内容,但发现火车头(刚开始用的是SP3版本)对正则使用方法说明不明,帮助也是指向论坛,进入指定的页面也没有有关如何使用的介绍(注意我说的是如何使用,不是正则的相关知识。),里面指的“参数”是什么意思我到现在也没有理解,也没有看到说明(也许是我没找到吧)。
没办法,去下了个SP2的版本,呵呵,里面有说明,也有使用的方法,自已写了个式子一下子就找到要的东东了,呵呵,而且我还发现这样的式子也能在SP3里用,但不知那“参数”是怎么用的,相信加入“参数”是想完成更复杂的功能,但得告诉我们怎么用。
<td align=left ><P>词条详细 >> (?<content>[^:]* ?):.*</P></td>
3、自定义入库不能使用
数据采集到了总得导入自己的数据库里吧,要不然还不是等于零。我用的是自己写的MySQL数据库,但我始终没有办法导入到自己的数据库中,这下可就郁闷了,早知道是这样我就不用火车头了,麻烦,没办法只好先导出为txt文档,然后自己再写成插入mysql语句,通过PHPmyAdmin导入我自己的数据库中。
这三点是我在初次使用火车头时遇到的问题,可能这些问题早有更好的办法解决,或火车头有这些功能我没有发现,呵呵,那就对不起了。本人没有诋毁火车头的意思,毕竟免费的采集工具能做成这样已经相当不错了。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?加入会员
x
|