火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4172|回复: 2

火车头还欠缺的地方

[复制链接]
发表于 2007-11-23 11:44:40 | 显示全部楼层 |阅读模式
这几天要采一个网站的数据,知道火车头的名气挺大的,所以就选择了用火车头来采集,但在使用时让我很困惑,一些最基本的功能都都没有,真的,很郁闷。

不知是因为这是免费版的原因还是什么,不管了,先说欠缺的地方:

1、不支持直接直接采集内容页

我在”编辑任务“的窗口中看到有关设置,说只要把”采集网址深度“设置为0就当成内容页,但我发现没有用。

情况是这样的,我要采集的网站的内容页很有规则,一下子就可以把所有的内容页的地址写出来,所有我想直接导入自己生成的内容页来进行采集,

这样也省去了很多事;但火车头不行。

没办法,只好投机取巧:先用普通的方法采集一点点地址,然后我在火车头程序目录 Data\任务名 里找到 SpiderResult.mdb 这个文件,用access打开,看到里面的数据很有规则,

改了改就成了采集内容页的数据了,呵呵,

要注意的是一定要把“已采”列的值设置成0 ,这样再次打开火车头,只采集内容就可以了,呵呵,算是有办法解决吧!

2、采集内容规则不名,说明文字不明

我对正则有一定的了解,所以为了费事就想采用正则去匹配我要的内容,但发现火车头(刚开始用的是SP3版本)对正则使用方法说明不明,帮助也是指向论坛,进入指定的页面也没有有关如何使用的介绍(注意我说的是如何使用,不是正则的相关知识。),里面指的“参数”是什么意思我到现在也没有理解,也没有看到说明(也许是我没找到吧)。

没办法,去下了个SP2的版本,呵呵,里面有说明,也有使用的方法,自已写了个式子一下子就找到要的东东了,呵呵,而且我还发现这样的式子也能在SP3里用,但不知那“参数”是怎么用的,相信加入“参数”是想完成更复杂的功能,但得告诉我们怎么用。
<td align=left ><P>词条详细 >> (?<content>[^:]* ?):.*</P></td>

3、自定义入库不能使用

数据采集到了总得导入自己的数据库里吧,要不然还不是等于零。我用的是自己写的MySQL数据库,但我始终没有办法导入到自己的数据库中,这下可就郁闷了,早知道是这样我就不用火车头了,麻烦,没办法只好先导出为txt文档,然后自己再写成插入mysql语句,通过PHPmyAdmin导入我自己的数据库中。

这三点是我在初次使用火车头时遇到的问题,可能这些问题早有更好的办法解决,或火车头有这些功能我没有发现,呵呵,那就对不起了。本人没有诋毁火车头的意思,毕竟免费的采集工具能做成这样已经相当不错了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2007-11-23 12:20:13 | 显示全部楼层
1.应是你设置的问题  从没发现0级网址不能用..

2.会正则的不多,会的知道是什么意思,火车里用<content>获取内容.那个参数,是用来组合结果的.比如你可以把内容和标题组合在一起.

3.自定义入库可以使用,如果您愿意支持火车采集器的发展,请购买VIP版本,里边有自定义的接口.您也可以单独购买入库编辑器..

评分

1

查看全部评分

发表于 2007-11-24 11:58:04 | 显示全部楼层
你说的第二点,正则录象教程:http://www.locoy.com/document/locoy_regex_study.rar
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-10-6 19:45

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表