seozy 发表于 2008-10-23 23:54:55

第一次使用火车头采集的基础教程

因为自己的dedecms不知道是什么原因,采集不了,不得以换用火车头采集,火车头加上dede,确实nb。

制定火车头的采集规则也不难,今天就说说火车头采集规则的制订,

下载
火车采集器2008正式版发布【最后更新:20080808】
http://bbs.locoy.com/spider-28888-1-1.html
(大家都注册个号码,以后什么什么问题,随时搜索一下论坛)

选择采集站点
我采集的baidu的blog,随便挑选一个

http://hi.baidu.com/seozy/

新建站点
在出来的站点属性标签中填写:

站点名:教程
站点网地址:http://hi.baidu.com/seozy/blog
描述:火车头采集教程

整站内容规则

采集网址深度:1(http://hi.baidu.com/seozy/blog这个是列表页面,从列表页进去的才是我们要的内容,所以这里选1)
选择来源站编码:gb2312(查看被采集站点的原代码,<meta http-equiv=content-type c>)

采集页面测试,典型页面地址http://hi.baidu.com/seozy/blog/item/2e1b99d7334a65dba144dff0.html(从列表中选一个页面,测试,得到如下内容
【作者】: <a href="http://www.locoy.com" target="_blank">火车采集器</a>
【出处】:
【标题】: 再也不能吃的垃圾食物_seo章鱼
【内容】: : 。。。这里省略)

现在编辑页面内容标签,左边看到的标题,内容,作者,时间出处。

标题:从测试页中可以看到,多余的“_seo章鱼”,屏蔽掉就可以了。
双击标题打开这个标签,在下面的内容排除中,添加,内容写 _seo章鱼 确定,确定 。
再测试一下,是不是得到结果
【标题】: 再也不能吃的垃圾食物
好的正确了。。

再来看看时间,
在测试结果最后一行
【时间】: 2008-10-23 22:30:22
这个是系统的时间,不是文章的时间。

页面中的时间是: 2008-10-23 14:41
查看html代码,(将测试结果的内容标签的代码全部copy到dreamweaver中查看比较方便)
<div class="date">2008-10-23 14:41</div>
而在整个html代码中, <div class="date"> 是唯一的,那么 <div class="date"> 开头 , </div> 结束的就是我们要的时间了。。测试看看。

双击时间标签,左边点“通过采集得到数据” ,开始字符串 <div class="date"> 结束字符串 </div>
确定,测试,得到的测试结果:

【时间】: 2008-10-23 14:41

时间弄好后,就到作者了。双击作者标签,系统自定义固定格式数据,固定的字符串,删除原来默认,写上blog作者名字 seo章鱼 确定

双击出处,自定义固定格式数据,固定的字符串,写上作者的blog地址 http://hi.baidu.com/seozy

最后是内容了。按照取得时间的方法,找到开头结束

<div id="blog_text" class="cnt">

</div></div>

因为内容各有不同,还有格式问题等原因,所以需要进行html标签排除,根据各模块和需要排除,常用到的有
链接
表格,行单元
字体

脚本
空格
框架

如果还有其他特别需要的
可以利用内容排除,替换。等高级功能。

本例子只需要选择h标签和层标签,span标签,



再查看内容标签里面是否有多余的,不需要的内容。如果有多余的,就编辑内容标签,如果没有,保险起见,可以多测试几个页面,防止考虑不周全。

ok如果完事了,
保存

下面站点建设好了。开始建设任务。
选择刚才建设好的站点,点菜单上面的新建任务

在跳出来的页面中,顶头上,选择所属站点,“教程” 任务名字“教程任务”

开始采集地址,向导添加
在出来的添加开始采集地址中,选择批量多页。

观察下我们采集的地址有好几页的,但是这些页是有规则的
http://hi.baidu.com/seozy/blog/index/0
http://hi.baidu.com/seozy/blog/index/1
http://hi.baidu.com/seozy/blog/index/2
...

那么多页类似地址形式:

http://hi.baidu.com/seozy/blog/index/(*)

(*)这个就是通配符了。。就是一个变量
数字范围选择
0-2
间隔是1,倒序,
添加,完成

得到

http://hi.baidu.com/seozy/blog/<0,2,1,true,false>
后面的<0,2,1,true,false>就是从0页到2页,加一,倒序采集,不补零的意思了。

这个时候,被采集页的内容我们设置好了。。列表页我们也设置了,那么还差什么呢,?
就是被采集页面的地址,如何才列表页中获得呢?

和之前获得采集内容从后某段html之间提取一样,被采集页面的地址,也是从列表页面中提取出来的。。

例如http://hi.baidu.com/seozy/blog/index/0
查看代码,发现所有的被采集页面地址都是在<div id="m_blog" class="modbox"> 和 <div id="page">中的。
将其填写到页面内选定区域采集网址

从<div id="m_blog" class="modbox">到<div id="page">


但是里面有很多连接,是不需要的,这个时候就要排除了。

文章内容页面的地址必须包含 html

开始测试采集网址,看采集的地址是否正确了。

一切按我们计划走。。

第二步到采集内容规则了。设置,(我们在站点已经设置好了。)测试。一切ok

第三步发布内容设置(dedecms5.1)

方式一,启动,第一在线post到网站全局设置,添加,选择dedecms5.1文章发布模块(如果是其他的或者没有的,请在论坛搜索),填写cms根地址(后台地址),在火车头内置浏览器中登陆(或者切换到传统模式登陆)

获取列表,选择需要发布的列表,填写配置名字,保存

在方式一的列表中,点选择分类,获取,选择列表。

保存。

一切大公告成,开始采集发布啦。(任务分布进行一定要选采集网站地址,采集内容,发布内容)

教程从最简单最基础的学起,里面说的都是很基本的操作。还有很多高级操作,在以后的学习和实践中会慢慢碰到的。。多看教程,多实践,万事搜索一下。

0020 发表于 2008-10-24 10:52:50

传说中的沙发啊:ali10ls
教程很清晰的讲述了采集的全过程很不错啊

[ 本帖最后由 0020 于 2008-10-24 10:55 编辑 ]

0020 发表于 2008-10-24 10:56:46

我也使用DEDE的欢迎进群交流QQ52746933

igocc 发表于 2008-11-16 00:24:49

顶一下!!:lol :lol

ayiz119 发表于 2008-11-18 15:01:45

对新手很有帮助啊 ,留个脚印

流浪王子 发表于 2008-11-22 17:34:37

好东东,顶一下!。。:ali12ls

ahdzw 发表于 2010-5-4 12:36:30

和之前获得采集内容从后某段html之间提取一样,被采集页面的地址,也是从列表页面中提取出来的。。

例如http://hi.baidu.com/seozy/blog/index/0
查看代码,发现所有的被采集页面地址都是在<div id="m_blog" class="modbox"> 和 <div id="page">中的。
将其填写到页面内选定区域采集网址

楼主这块能不能 说细点? 没看明白,,
页: [1]
查看完整版本: 第一次使用火车头采集的基础教程