申请会员
登录
搜索
帮助
火车采集器|信息数据采集论坛
»
采集器讨论区
»
原2.0版本子讨论区
» 火车采集器最新版本基本功能介绍
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
火车采集器最新版本基本功能介绍
netdream
管理员
UID
60
帖子
1296
活跃度
1176 点
火车车厢
72 节
注册时间
2005-11-23
个人空间
发短消息
加为好友
当前离线
1楼
大
中
小
发表于 2007-1-7 19:15
只看该作者
火车采集器最新版本基本功能介绍
火车采集器最新版本基本功能介绍
转自:
http://www.locoy.com/
1、使用站点+任务方式管理采集节点。
通常,一个站点大都有多个分类,如果各个分类只采用一套模版或者模版标记变化不大 的情况下我们只要一个任务即可完成整个网站的采集,但是如果每个分类使用一个模版且模版的标记变化比较大,这时候我们就需要对各个分类设置一个对应的采集规则(也称任务)。因此,使用站点加任务的管理方式有利于日后维护——特别是采集站点比较多的时候
2、实现采集地址和及内容采集同时进行。
按传统的采集方式是先把地址读取到本地,然后在对各个地址一个个的分析,这样的效率明显很低。火车采集器采用同步进行方式,也就是在获取完第一条地址之后再接着获取其他采集地址的时候同时采集内而且可以同时多任务采集!
3、对来源采集站进行登陆采集,编码,
JS转换选择
,保守计算可以实现对95%以上目标进行采集。
一些比较大的或者国际性的软件大都采用utf8或者unicode编码来解决各国字符之间的问题。而utf8或者unicode字符在gbk下显示的将是一堆乱码,这时候我们就可以利用火车采集器3.0的内部转码工具自动转换!在采集网站的过程中我们发现很多网站都隐藏了真实的地址,通过js调用来防采集(比如:javascript winopen([参数1],[参数2]),一般的采集器是没办法实现这样网址的采集的,对火车采集器3.0正式板来说可以通过自定义网址实现这样地址的采集!
4、地址采集可以通过单条,批量,及文本方式导入添加,无需标签自动识别网址连接。
采集地址时当我们只需要采集一个网页时,您添加单条网址即可,如果单任务需要采集多页面,这是您就可以批量添加网址。如果您有已经有了一个网址的文本集合,那么您直接导入网址即可。火车采集器能智能化地识别网址!
5、使用规则标签对采集条目进行管理,不再局限于普通的标题,内容采集,
标签实现完全自定义
。
假如我们采集一个药品的数据,那么我们可能需要的数据包括:生厂商、产品型号、使用说明、产品配置等。这些标签单单用一个内容和标题是没办法实现的,这时候你可以用火车采集器的自定义标签来完成无数个你想要的任何标签;
6、对规则标签的编辑可以无限对其进行剔除广告和替换,真正得到你所需要的内容,同时程序提供规则类型选择和
基本的HTML代码排除
功能。
在任何标签中都可以添加无限的排除和替换规则提取您需要的任何格式内容。同时火车采集器提供了html标签排除功能,你可以一次排除<table> <tr> <td> <img <div 等基本的标签;采集 的内容也可以选择格式,包括:任意文本、网址、email、汉字、英文、整数、小数、ip等!
7、人工智能的内容分页采集技术,结合您的论坛/CMS系统甚至将采集的文章可以
还原成采集时原来的分页数
。
现在大多数的cms系统都有手动分页标签,因此我们在采集带分页的目标站时,可以给采集回来的内容添加分页标志,实现了跟目标站一样的分页格式。当然,您可以更加灵活的运用分页标志以达到您想要的任何格式;
8、采集内容测试功能。
这个功能是其他任何采集器所无法比拟的,火车采集器可以跳过网址采集直接先进行内容采集测试和内容规则的定义。这个功能的最大特点就是,可以避免在一些特殊的网站上浪费时间。因为网址采集一般都比较简单。当我们按步骤采集完网址的时候却发现自己没有能力采集内容那不是很浪费时间?所以,给您个提示,您可以先进行内容采集测试,发现可以采集再采集网址!
9、 [发布方式1]采集内容及连接保存到软件数据库,方便对内容进行管理,对比
避免重复采集
。
这个比在线采集的强大之处是,您不需要任何服务器、数据库的支持,也不需要占用您服务器的任何空间。所有的数据全部保存在本地的数据库中,避免了下次数据重复采集!当然,您如果觉得占用您pc空间,您可以清空任何任务的数据库。不过我想现在每个人的硬盘至少都有80g以上吧,占用一点点的硬盘并不影响您机器的性能;
10、[发布方式2]采集内容可以选择保存为本地文件,方便阅览收藏。
这个功能也是其他任何采集器目前没办法实现的,您除了可以选择在线发布外还可以选择保存为本地文件,包括txt hmtl csv格式,当然您可以复选的,也就是选择发布方式1的同时选择保存为本地文件,两个任务同时进行互不干扰;
11、[发布方式3]采集内容可以选择
在线发表到您的网站(软件主打功
能)。
也就是离线采集,您可以在本级采集数据,然后通过自定义模块发布到任何系统中!
12、[发布方式4]采集内容
可以选择对口保存在本地及远程数据库,目前开放ACCESS,MSSQL及MYSQL配置接口
。
这个功能将大大的提高采集的入库速度。不过直接对数据库进行操作风险较大,强烈建议在对已存的数据库进行备份。我们建议,只有对数据库熟悉的朋友才利用此功能。请谨慎使用此功能,我们不对此造成的任何风险承担任何责任,一切后果皆由操作者自行负责;
13、[发布方式5]采集内容可以选择保存为本地标准SQL运行语句文件,可实现
向任意数据库的数据导入
。
有了这个功能,您可以把数据入库到任何sql数据库的系统中,即使是您的系统没有任何文章提交接口——只要您的系统有简单的数据读取功能就可以了!(这功能没用过,问问火车哈)
注意:在入库方式选择直接对数据进行操作前请自行备份数据库,以防不测!如果您对数据库的操作不熟悉我们不建议您这么做!
14、自定义论坛/文章系统接口模块,可以实现对各种主流文章/论坛系统的在线内容导入。
这个也是
火车最为强大的功能之一可(只要有相应的登录模块,就可把采来的内容以 “主题” 或 “回复” 形式发表)
,通过自定义模块您可以入库到所有您想入库的任何系统!同时我们会提供大量的主流模块的登陆发表系统,发表模块请到论坛的火车采集器模块区去下载;
15、支持使用代理服务器采集。这个功能实现了ip封锁的突破。
简单的例子是,有些国外的网站被封锁了ip,而他的内容您又非常需要,这时候您就可以通过代理服务器来实现!
16、实现
自定义文件后缀名类型的文件分段断点下载
,破解简单防护
得到真实地址下载文件
,自定义更名/保存及地址保存接口。
目前大部分的采集器大都只能实现图、,flash的采集,对于其他的采集器无能为力。火车采集器3.0可以自定义文件下载类型的后缀名,突破大部分的防护功能获得真实的下载地址。同时,您可以自定义文件的保存地址实现跟文章系统同步;
17、同时进行多站点多任务多线程采集。
这个可以根据您pc的配置来定义线程和任务数,只要您的pc配置够好,就可以同时进行够多的任务!
18、自动将您的模块和任务规则发布到论坛与大家共享。
如果您有好的采集任何规则和模块希望跟其他的网友分享的话,那么可以用火车采集器内置板块直接发送到论坛对应的板块。请放心,在您没有操作的情况下,系统是不会把您的模块发布到论坛那的。
19、真正意义的软件计划任务,实现对某些网站的
动态内容更新监
视。
这个功能可以大大的提高您的工作效率,当您启用自动任务调度的时候,火车采集器将自动帮您监视目标网站的内容更新!
20、
模拟百度蜘蛛
采集。
UID
60
帖子
1296
精华
0
积分
2081
活跃度
1176 点
火车车厢
72 节
阅读权限
200
在线时间
1830 小时
注册时间
2005-11-23
最后登录
2008-10-8
查看详细资料
TOP
熄灯
新手上路
UID
10335
帖子
29
活跃度
50 点
火车车厢
5 节
注册时间
2007-1-1
个人空间
发短消息
加为好友
当前离线
2楼
大
中
小
发表于 2007-1-7 19:30
只看该作者
出新的吗?``出来没有?~`
UID
10335
帖子
29
精华
0
积分
50
活跃度
50 点
火车车厢
5 节
阅读权限
20
在线时间
15 小时
注册时间
2007-1-1
最后登录
2007-2-8
查看详细资料
TOP
cat214
注册会员
UID
3484
帖子
3
活跃度
6 点
火车车厢
5 节
注册时间
2006-6-22
个人空间
发短消息
加为好友
当前离线
3楼
大
中
小
发表于 2007-1-7 19:39
只看该作者
支持。
请说话文明些!
--netdream
UID
3484
帖子
3
精华
0
积分
6
活跃度
6 点
火车车厢
5 节
阅读权限
10
在线时间
75 小时
注册时间
2006-6-22
最后登录
2007-8-5
查看详细资料
TOP
netdream
管理员
UID
60
帖子
1296
活跃度
1176 点
火车车厢
72 节
注册时间
2005-11-23
个人空间
发短消息
加为好友
当前离线
4楼
大
中
小
发表于 2007-1-7 19:57
只看该作者
我是为了让新手能清楚火车采集器到底有那些功能才转他首页的介绍的。
UID
60
帖子
1296
精华
0
积分
2081
活跃度
1176 点
火车车厢
72 节
阅读权限
200
在线时间
1830 小时
注册时间
2005-11-23
最后登录
2008-10-8
查看详细资料
TOP
小珩
注册会员
UID
6135
帖子
4
活跃度
2 点
火车车厢
5 节
注册时间
2006-9-22
个人空间
发短消息
加为好友
当前离线
5楼
大
中
小
发表于 2007-1-7 20:00
只看该作者
支持~~
爱上采集,爱上火车头~
UID
6135
帖子
4
精华
0
积分
2
活跃度
2 点
火车车厢
5 节
阅读权限
10
在线时间
70 小时
注册时间
2006-9-22
最后登录
2008-2-26
查看个人网站
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
论坛管理及公告
论坛记事、活动、培训区
火车采集器交流与讨论
程序发布
悬赏求助区
采集器讨论区
原1.X版本子讨论区
原2.0版本子讨论区
使用教程区
模块资源区
原1.2.0/1.2.1版本模块保留区
站点任务规则资源区
原1.X版本规则保留区
原2.0版本规则保留区
BUG报告
采集器资源求购区
程序建议区
各种CMS,论坛讨论区(与3.2发布同时开设)
Discuz! | & Supsite
PHPWind & VeryCMS
PHPCMS
DedeCMS
Powereasy动易
Foosun风讯
HBCMS
Dvbbs & DvPHP
WordPress 等Blog程序
Joomla等国外程序
ECMS帝国
新云程序
站长交流区
建站交流
网站赚钱
SEO技术交流
网站系统经验分享
火车域名注册
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
个人空间管理
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计
Powered by
Discuz!
6.0.0
© 2001-2007
Comsenz Technology Ltd
Processed in 0.243595 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-11-24 04:52
皖ICP备06000549
清除 Cookies
-
联系我们
-
火车采集器官方站
-
静态归档
>
界面风格
----------
默认风格
喝彩奥运
深邃永恒
粉妆精灵
诗意田园
春意盎然