第一次使用火车头采集的基础教程

seozy · 发表于 2008-10-23 23:54:55

因为自己的dedecms不知道是什么原因，采集不了，不得以换用火车头采集，火车头加上dede，确实nb。

制定火车头的采集规则也不难，今天就说说火车头采集规则的制订，

下载
火车采集器2008正式版发布【最后更新：20080808】
http://bbs.locoy.com/spider-28888-1-1.html
（大家都注册个号码，以后什么什么问题，随时搜索一下论坛）

选择采集站点
我采集的baidu的blog，随便挑选一个

http://hi.baidu.com/seozy/

新建站点
在出来的站点属性标签中填写：

站点名：教程
站点网地址：http://hi.baidu.com/seozy/blog
描述：火车头采集教程

整站内容规则

采集网址深度：1（http://hi.baidu.com/seozy/blog这个是列表页面，从列表页进去的才是我们要的内容，所以这里选1）
选择来源站编码：gb2312（查看被采集站点的原代码，<meta http-equiv=content-type c>）

采集页面测试，典型页面地址http://hi.baidu.com/seozy/blog/item/2e1b99d7334a65dba144dff0.html（从列表中选一个页面，测试，得到如下内容
【作者】： <a href="http://www.locoy.com" target="_blank">火车采集器</a>
【出处】：
【标题】：再也不能吃的垃圾食物_seo章鱼
【内容】：：。。。这里省略）

现在编辑页面内容标签，左边看到的标题，内容，作者，时间出处。

标题：从测试页中可以看到，多余的“_seo章鱼”，屏蔽掉就可以了。
双击标题打开这个标签，在下面的内容排除中，添加，内容写 _seo章鱼确定，确定。
再测试一下，是不是得到结果
【标题】：再也不能吃的垃圾食物
好的正确了。。

再来看看时间，
在测试结果最后一行
【时间】： 2008-10-23 22:30:22
这个是系统的时间，不是文章的时间。

页面中的时间是： 2008-10-23 14:41
查看html代码，（将测试结果的内容标签的代码全部copy到dreamweaver中查看比较方便）
<div class="date">2008-10-23 14:41</div>
而在整个html代码中， <div class="date"> 是唯一的，那么 <div class="date"> 开头， </div> 结束的就是我们要的时间了。。测试看看。

双击时间标签，左边点“通过采集得到数据” ，开始字符串 <div class="date"> 结束字符串 </div>
确定，测试，得到的测试结果：

【时间】： 2008-10-23 14:41

时间弄好后，就到作者了。双击作者标签，系统自定义固定格式数据，固定的字符串，删除原来默认，写上blog作者名字 seo章鱼确定

双击出处，自定义固定格式数据，固定的字符串，写上作者的blog地址 http://hi.baidu.com/seozy

最后是内容了。按照取得时间的方法，找到开头结束

<div id="blog_text" class="cnt">

</div></div>

因为内容各有不同，还有格式问题等原因，所以需要进行html标签排除，根据各模块和需要排除，常用到的有
链接
表格，行单元
字体
层
脚本
空格
框架

如果还有其他特别需要的
可以利用内容排除，替换。等高级功能。

本例子只需要选择h标签和层标签，span标签，

再查看内容标签里面是否有多余的，不需要的内容。如果有多余的，就编辑内容标签，如果没有，保险起见，可以多测试几个页面，防止考虑不周全。

ok如果完事了，
保存

下面站点建设好了。开始建设任务。
选择刚才建设好的站点，点菜单上面的新建任务

在跳出来的页面中，顶头上，选择所属站点，“教程” 任务名字“教程任务”

开始采集地址，向导添加
在出来的添加开始采集地址中，选择批量多页。

观察下我们采集的地址有好几页的，但是这些页是有规则的
http://hi.baidu.com/seozy/blog/index/0
http://hi.baidu.com/seozy/blog/index/1
http://hi.baidu.com/seozy/blog/index/2
...

那么多页类似地址形式：

http://hi.baidu.com/seozy/blog/index/(*)

(*)这个就是通配符了。。就是一个变量
数字范围选择
0-2
间隔是1，倒序，
添加，完成

得到

http://hi.baidu.com/seozy/blog/<0,2,1,true,false>
后面的<0,2,1,true,false>就是从0页到2页，加一，倒序采集，不补零的意思了。

这个时候，被采集页的内容我们设置好了。。列表页我们也设置了，那么还差什么呢，？
就是被采集页面的地址，如何才列表页中获得呢？

和之前获得采集内容从后某段html之间提取一样，被采集页面的地址，也是从列表页面中提取出来的。。

例如http://hi.baidu.com/seozy/blog/index/0
查看代码，发现所有的被采集页面地址都是在<div id="m_blog" class="modbox"> 和 <div id="page">中的。
将其填写到页面内选定区域采集网址

从<div id="m_blog" class="modbox">到<div id="page">

但是里面有很多连接，是不需要的，这个时候就要排除了。

文章内容页面的地址必须包含 html

开始测试采集网址，看采集的地址是否正确了。

一切按我们计划走。。

第二步到采集内容规则了。设置，（我们在站点已经设置好了。）测试。一切ok

第三步发布内容设置（dedecms5.1）

方式一，启动，第一在线post到网站全局设置，添加，选择dedecms5.1文章发布模块（如果是其他的或者没有的，请在论坛搜索），填写cms根地址（后台地址），在火车头内置浏览器中登陆（或者切换到传统模式登陆）

获取列表，选择需要发布的列表，填写配置名字，保存

在方式一的列表中，点选择分类，获取，选择列表。

保存。

一切大公告成，开始采集发布啦。（任务分布进行一定要选采集网站地址，采集内容，发布内容）

教程从最简单最基础的学起，里面说的都是很基本的操作。还有很多高级操作，在以后的学习和实践中会慢慢碰到的。。多看教程，多实践，万事搜索一下。

0020 · 发表于 2008-10-24 10:52:50

传说中的沙发啊

教程很清晰的讲述了采集的全过程很不错啊

[ 本帖最后由 0020 于 2008-10-24 10:55 编辑 ]

0020 · 发表于 2008-10-24 10:56:46

我也使用DEDE的欢迎进群交流QQ52746933

igocc · 发表于 2008-11-16 00:24:49

顶一下！！

ayiz119 · 发表于 2008-11-18 15:01:45

对新手很有帮助啊，留个脚印

流浪王子 · 发表于 2008-11-22 17:34:37

好东东，顶一下！。。

ahdzw · 发表于 2010-5-4 12:36:30

和之前获得采集内容从后某段html之间提取一样，被采集页面的地址，也是从列表页面中提取出来的。。

例如http://hi.baidu.com/seozy/blog/index/0
查看代码，发现所有的被采集页面地址都是在<div id="m_blog" class="modbox"> 和 <div id="page">中的。
将其填写到页面内选定区域采集网址

楼主这块能不能说细点? 没看明白,,

帐号		自动登录	找回密码
密码			加入会员