|
因为自己的dedecms不知道是什么原因,采集不了,不得以换用火车头采集,火车头加上dede,确实nb。
制定火车头的采集规则也不难,今天就说说火车头采集规则的制订,
下载
火车采集器2008正式版发布【最后更新:20080808】
http://bbs.locoy.com/spider-28888-1-1.html
(大家都注册个号码,以后什么什么问题,随时搜索一下论坛)
选择采集站点
我采集的baidu的blog,随便挑选一个
http://hi.baidu.com/seozy/
新建站点
在出来的站点属性标签中填写:
站点名:教程
站点网地址:http://hi.baidu.com/seozy/blog
描述:火车头采集教程
整站内容规则
采集网址深度:1(http://hi.baidu.com/seozy/blog这个是列表页面,从列表页进去的才是我们要的内容,所以这里选1)
选择来源站编码:gb2312(查看被采集站点的原代码,<meta http-equiv=content-type c>)
采集页面测试,典型页面地址http://hi.baidu.com/seozy/blog/item/2e1b99d7334a65dba144dff0.html(从列表中选一个页面,测试,得到如下内容
【作者】: <a href="http://www.locoy.com" target="_blank">火车采集器</a>
【出处】:
【标题】: 再也不能吃的垃圾食物_seo章鱼
【内容】: : 。。。这里省略)
现在编辑页面内容标签,左边看到的标题,内容,作者,时间出处。
标题:从测试页中可以看到,多余的“_seo章鱼”,屏蔽掉就可以了。
双击标题打开这个标签,在下面的内容排除中,添加,内容写 _seo章鱼 确定,确定 。
再测试一下,是不是得到结果
【标题】: 再也不能吃的垃圾食物
好的正确了。。
再来看看时间,
在测试结果最后一行
【时间】: 2008-10-23 22:30:22
这个是系统的时间,不是文章的时间。
页面中的时间是: 2008-10-23 14:41
查看html代码,(将测试结果的内容标签的代码全部copy到dreamweaver中查看比较方便)
<div class="date">2008-10-23 14:41</div>
而在整个html代码中, <div class="date"> 是唯一的,那么 <div class="date"> 开头 , </div> 结束的就是我们要的时间了。。测试看看。
双击时间标签,左边点“通过采集得到数据” ,开始字符串 <div class="date"> 结束字符串 </div>
确定,测试,得到的测试结果:
【时间】: 2008-10-23 14:41
时间弄好后,就到作者了。双击作者标签,系统自定义固定格式数据,固定的字符串,删除原来默认,写上blog作者名字 seo章鱼 确定
双击出处,自定义固定格式数据,固定的字符串,写上作者的blog地址 http://hi.baidu.com/seozy
最后是内容了。按照取得时间的方法,找到开头结束
<div id="blog_text" class="cnt">
</div></div>
因为内容各有不同,还有格式问题等原因,所以需要进行html标签排除,根据各模块和需要排除,常用到的有
链接
表格,行单元
字体
层
脚本
空格
框架
如果还有其他特别需要的
可以利用内容排除,替换。等高级功能。
本例子只需要选择h标签和层标签,span标签,
再查看内容标签里面是否有多余的,不需要的内容。如果有多余的,就编辑内容标签,如果没有,保险起见,可以多测试几个页面,防止考虑不周全。
ok如果完事了,
保存
下面站点建设好了。开始建设任务。
选择刚才建设好的站点,点菜单上面的新建任务
在跳出来的页面中,顶头上,选择所属站点,“教程” 任务名字“教程任务”
开始采集地址,向导添加
在出来的添加开始采集地址中,选择批量多页。
观察下我们采集的地址有好几页的,但是这些页是有规则的
http://hi.baidu.com/seozy/blog/index/0
http://hi.baidu.com/seozy/blog/index/1
http://hi.baidu.com/seozy/blog/index/2
...
那么多页类似地址形式:
http://hi.baidu.com/seozy/blog/index/(*)
(*)这个就是通配符了。。就是一个变量
数字范围选择
0-2
间隔是1,倒序,
添加,完成
得到
http://hi.baidu.com/seozy/blog/<0,2,1,true,false>
后面的<0,2,1,true,false>就是从0页到2页,加一,倒序采集,不补零的意思了。
这个时候,被采集页的内容我们设置好了。。列表页我们也设置了,那么还差什么呢,?
就是被采集页面的地址,如何才列表页中获得呢?
和之前获得采集内容从后某段html之间提取一样,被采集页面的地址,也是从列表页面中提取出来的。。
例如http://hi.baidu.com/seozy/blog/index/0
查看代码,发现所有的被采集页面地址都是在<div id="m_blog" class="modbox"> 和 <div id="page">中的。
将其填写到页面内选定区域采集网址
从<div id="m_blog" class="modbox">到<div id="page">
但是里面有很多连接,是不需要的,这个时候就要排除了。
文章内容页面的地址必须包含 html
开始测试采集网址,看采集的地址是否正确了。
一切按我们计划走。。
第二步到采集内容规则了。设置,(我们在站点已经设置好了。)测试。一切ok
第三步发布内容设置(dedecms5.1)
方式一,启动,第一在线post到网站全局设置,添加,选择dedecms5.1文章发布模块(如果是其他的或者没有的,请在论坛搜索),填写cms根地址(后台地址),在火车头内置浏览器中登陆(或者切换到传统模式登陆)
获取列表,选择需要发布的列表,填写配置名字,保存
在方式一的列表中,点选择分类,获取,选择列表。
保存。
一切大公告成,开始采集发布啦。(任务分布进行一定要选采集网站地址,采集内容,发布内容)
教程从最简单最基础的学起,里面说的都是很基本的操作。还有很多高级操作,在以后的学习和实践中会慢慢碰到的。。多看教程,多实践,万事搜索一下。 |
|