火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4710|回复: 9

3.0.1火车采集器使用入门

[复制链接]
发表于 2007-2-23 22:46:05 | 显示全部楼层 |阅读模式
3.0.1火车采集器使用入门
转载请注明出自落伍im286.com,本贴地址:http://www.im286.com/viewthread.php?tid=1849672

菜鸟教菜鸟,会用火车采集的就不用浪费时间了哈

3.0.1火车采集器使用入门

一、简介
火车采内容集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。
  系统支持远程图片下载,图片批量水印,Flash下载,下载附件,探测文件真实地址并下载文件;可扩展性强,只要做出相应的登陆模块,就能将采集的东东发往各种CMS和论坛。
   
二、安装
官方地址:www.locoy.com  官方论坛:http://bbs.locoy.com
3.0.1版下载地址:http://bbs.locoy.com/viewthread. ... page%3D1&page=1
使用前请安装net framework 2.0
下载地址: http://www.microsoft.com/downloa ... p;displaylang=zh-cn[荐]

火车采集器非常灵活,不拘泥于某一种使用方式。只要你习惯,怎么用都行。下面仅介绍基本用法。


值得一提的是:在制作规则时可以用“(*)”来代表任何变动的部分,这无疑给我们这些不懂正侧表达的人来了福音!在此对火车表示感谢!

三、采集规则的制作及在线发布
3.0.1版采集规则制作及在线发布的基本步骤为:新建站点,在站点下建任务(包括 采集网址、设置内容规则、设置数据发布方式),点 开始 按钮发布。

下面以163明星写真(http://ent.163.com/special/p/00031HGU/portray.html)为例,与大家共同学习采集规则的制作:

(为便于初学者理解,我的步骤与火车的在线教程有点差异。)

准备:用IE打开要采集的站点列表页http://ent.163.com/special/p/00031HGU/portray.html,并打开一内容页面,如http://ent.163.com/05/1205/23/248DINS9000300E1.html,查看内容页源代码。

1.新建站点

   打开火车采集器,点击“新建”按钮,出现上下排列的“新建任务、新建站点”,点击“新建站点”出现一对话框,在“站点基本信息”中填写要采集站点的名称和网址:“网易娱乐,http://ent.163.com”,如不做整站规则,可直接点击“保存”。

2.新建任务
   点击“新建”按钮,点击“新建站点”,在“选择任务所属站点”中选“网易娱乐”,在“任务名称”中输入要采集的版块名称“163明星写真”。

3. 采集网址   (添加网址的方式有3种:单条网址、批量/多页、文本导入。可根据情况灵活使用)
双击“开始采集地址”的空白处,会弹出“添加开始采集地址”的对话框,将要采集的站点列表页地址“http://ent.163.com/special/p/00031HGU/portray.html”填入框中,点“添加”,再点“完成添加”。观察内容页面地址都包含有“05”,便在“文章内容页面地址必须包含”内填入“05”,点“开始测试网址采集”按钮,采到所要的网址。

       注意:默认设置下采不到的网址可试用“自定义链接格式”

4.内容规则设置
切换到“内容规则”,把要采集的内容页面的网址http://ent.163.com/05/1205/23/248DINS9000300E1.html拷贝到“典型页面”测试框中,点击“测试”读取源码。观察测试页的源码,发现按默认标签采集回来的标题多了“_网易娱乐频道”,双击“标签名”下的标题标签,会弹出一对话框,在“内容排除”下方点“Add”把“_网易娱乐频道”添加到排除内容框里,点“确定”,标题标签设置完成。

      注意:内容标签开始和结束代码的设置,一定要注意所取代码的惟一性,这是规则成败的关键。

      我们观察http://ent.163.com/05/1205/23/248DINS9000300E1.html的源代码发现所采页面的各分页内容开始处都有“<!-- 正文 -->”,内容的结尾处都有“</div>”,利用IE的查找功能确定它们是惟一的,可作为内容开始和结束代码,双击内容标签,在“开始字符串”中填入“<!-- 正文 -->”,在“结束字符串”中填入“</div>”,再点测试页面的“测试”就能看到采集效果,发现内容标签中多了这样的代码“<img src="/img/e.gif" width="18" height="18" align="absbottom" alt="应声虫" border=0>”,多测试几个页面后,还发现有的内容多了“<div id="travesty">,<div class="travestypic">”这样的代码, 双击内容标签,在“内容排除”下方点“Add”把“<img src="/img/e.gif" width="18" height="18" align="absbottom" alt="(*)" border=0>,<div id="travesty">,<div class="travestypic">”分别添加到排除内容框里,钩上“下载图片”,点“确定”,内容标签设置完成。

5. 分页的设置(其实质就是把每个分页的地址都包含在内)(无分页的可不设)
观察几个内容分页的源代码后,发现每个页面的分页代码都有用图片表示的“上一页”和“下一页”,而且各分页地址都包含在其中,便以“上一页”和“下一页”的图片名称“arc_pre.gif”,“arc_next.gif”作为分页设置的起止代码,选中上下页形式(选全部列出模式也行),选中内容循环匹配。这时点测试页面的“测试”能见各分页合并的内容,点“更新”,跟提示做。分页设置完成。

6.数据发表方式设置

3.0.1有5种数据发布方式,目前开放的只有前3种。这里讲第3种:在线发布方式。
切换到“数据发布方式”,选中“方式三”,点击“全局发布方式(已完成)”,在“选择系统代码类型” 中选定发布模块——》填写网站/cms根地址、用户名和密码(或使用火车内置浏览器登陆,登陆后关闭内置浏览器)——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务。

7. 下载设置
返回火车主界面,选中任务点右键,再点“任务高级设置”调出对话框,在“文件链接地址前缀,一般填你的域名或根目录/”处填写“http://www.****.com/img(填你的域名/放图片的文件夹名)”,保存设置。

注意:文章倒序发表的设置也在这里哦

8.系统设置(一般使用默认设置,这步可省略)
点击主界面上方的“系统设置”,再点“系统全局”,可进行线程,间隔时间等设置。

9.点击主界面“开始”按钮,即开始在线发布。
呵呵,到自已的站上去看看吧,见到帖子了吧,恭喜你啦!耶,图片没有显示哦

10. 在火车采集程序的 LocoySpider3.1\Data\任务名称\Locoy_Img目录下找到存放的图片,将图片上传到图片地址对应的空间目录,再刷新下页面,呵呵,大功告成!图片显示了!

发表于 2007-2-23 23:12:42 | 显示全部楼层
MM真是有心人呀
 楼主| 发表于 2007-2-23 23:16:56 | 显示全部楼层
呵呵,别笑话人啊
我也是没法呀
有什么地方不对的,给我指出来,我改哈
发表于 2007-2-23 23:34:51 | 显示全部楼层
3.0.1火车采集器使用入门

菜鸟教菜鸟,会用火车采集的就不用浪费时间了哈

你看一下标题下面.,有小字,我也是刚才看到的.不是笑话,你理解错俺的意思了:loveliness:
 楼主| 发表于 2007-2-23 23:44:35 | 显示全部楼层
删了
 楼主| 发表于 2007-2-23 23:49:01 | 显示全部楼层
你看一下标题下面.,有小字,我也是刚才看到的.

什么小字?
发表于 2007-2-24 19:39:00 | 显示全部楼层
很全面
谢谢
发表于 2007-2-25 10:22:03 | 显示全部楼层
MM精品!:victory:
发表于 2007-2-25 11:30:37 | 显示全部楼层
发表于 2007-2-27 15:05:36 | 显示全部楼层
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 07:10

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表