火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 13196|回复: 27

瑞丽整站采集过程详解及规则[基本完成,召唤版主写POST和JS教程]

[复制链接]
发表于 2008-4-7 19:30:44 | 显示全部楼层 |阅读模式
导读
本文尽量用图片述说鼠标点击过程,之所以没有录视频,是因为视频的文件格式比较大,不容易浏览.
会从最开始的采集分析到完成采集过程尽量详细的记录每一步设置修改过程.但每人水平参差不齐,
难免有所遗漏,回帖说明问题,我会在后面尽量补充完整.
2008年4月7号写完第4楼感言:我发现我又犯了虎头蛇尾的问题了,前面写的太详细,后面觉得前面都说了,就简单了.
也再次发现做教程的不容易,版主辛苦了.在这里真的要感谢火车头做的这个软件,让我这个懒人轻松下来,感谢孤魂的
远程协助和我时不时的无理要求(呵呵 基本没有一个被实现) 感谢沦陷今生的规则和VUS520的程序思想.火车头采集
会更好的.虽然我们有时候采集的数据有版权,被人称为LJZ,但我们不要做LJZ长.盗亦有道,俺们是有技术含量的!


0.采集之前的准备.确定目标站点是否容易采集
1.火车头站点发布设置
2.制作采集网址规则
3.制作采集内容规则
4.发布内容设置
5.文件保存设置
6.发布结果分析,整站制作


确定采集站点为:瑞丽女性网
网址为:http://www.rayli.com.cn/index.html
查看网站地图确定采集频道栏目,
看是否为HTML静态发布.
看列表页是否是可以采集的地址
看分页时候可以容易的采集
看内容页是否容易采集
因为现在可以采集的站点很多,没有必要一棵树上吊死.
下面补图

网站地图一般涉及到最终栏目列表页,在找栏目列表时会较容易分析出想要的内容列表
地址:http://www.rayli.com.cn/static/map.htm
对于需要采集的列表页,用鼠标指向链接,查看状态栏显示的网页地址是否为静态页面HTM HTML SHTML
而对于采集列表而言,只要是网址的集合都可以叫做采集列表 比如说
地址:http://www.rayli.com.cn/region/C0002008001.html
此页面是栏目列表页,内容主题统一,信息量较大,适合扒站使用,但没有主次之分,一般程序会按照发布时间
或者文章ID倒序排列.而现在主流采用的标题标红 着色的方法在采集中不宜识别,所以用此列表页一般为
息更新,填充文章量.

地址:http://www.rayli.com.cn/region/C0002008001.html
此页面属于二级栏目首页的文章列表,在如今开源或收费的CMS程序中,大多使用发布时间倒序,但各大主流
网站,或商业站所使用的商业CMS,在此的位置为人工或半人工设定,即大家所听过的"封推""置顶"等手段组成
的具有意义的文章排列,为网站重点文章或精华文章.与其所属栏目的列表页有所不同,视程序智能设定程度而
定,可以看sina等站的列表页和栏目首页.摘取此页的目的在于有利于搜索,属于精品文章,不会让站点数据太LJ
但更新量较少,有时此栏目会更新但首页列表有可能不更新.

对于具体采集哪个个人分析就好,反正就是一个网址的集合采集到了就OK!
分页识别方法
对于制作简单程序来讲"序和可识别"包含了面向过程程序的所有内容
而我们所见的内容就是程序员在这两个宗旨的设定下所显示的表象内容
我们要做的就是分析出"序"让自己的程序"可识别"
下面两张图片可以看出基本的分页效果
1.是静态页面可以很顺利采集
2.分页采用"_"+"分页数字"
下面涉及到的是内容页的采集分析
地址:http://fashion.rayli.com.cn/0002 ... 2008001_294578.html
其实如果你想去扒一个站,那你80%会对此内容熟悉,除非像版主一样专门做采集工作,哈哈
所以内容的实时更新,内容精彩程度心中都有数,下面我们看版面.
非常好的静态页.采用CSS结构.这里插一句"所谓CSS"大家熟知是因为用"DIV+CSS"做站速度快.
实际其体现的是一种内容和表现分离的一种思想,就是在内容不变的情况下,通过CSS控制页面的
结构和前台显示效果,
大家可以试一下传统table出来的页面的打印效果和CSS的打印效果就有深
刻的认识了,而且这样会更有利我们的抓取.
因为页面太大所以分成小图重点看下内容
以下内容是我们需要的,其他的一概没用.

导航 标题 页面信息 去除广告

分页列表

内容部分
下面我们看源代码 呵呵 直接用TXT打开就好了 我挑重点代码粘过来 不知道位置的搜索就好

需要采集的标题
<title>08春夏甜美女生必备单品-服饰-瑞丽女性网</title>
这里需要除去版权标

网页采用的CSS文件
<link href="http://www.rayli.com.cn/newdcy/raylitail.css" rel="stylesheet" type="text/css">
喜欢扒站的站长必须要看的东西,熟悉风格的书写规则,好干活.

<div id="contentzw">整体正文块

<div id="bianji" class="zhenwentitle02">2008-3-19 13:12:29 频道编辑/sherry </div>信息

<div class="piandaobianji"><table width=100% border=0 cellpadding=0 cellspacing=0>
        <a href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_1.html" class=zwfenye02>2</a>
        <a href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_2.html" class=zwfenye02>3</a>
        <a href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_3.html" class=zwfenye02>4</a>
        <a href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_4.html" class=zwfenye02>5</a>         
        <a href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_5.html" class=zwfenye02>6</a>         
</div>

<div id="zhengwen" class="zwfenyeziti02 l15 f14">
<P><FONT face=Verdana>  明媚多彩的春夏已经来到,脱去臃肿的冬装,小女生开始涌动扮美的心思。掌握好2008春夏的流行趋势了吗?去年提前预演的多场春夏时装秀都在告诉我们,鲜艳的糖果色、丰富的图案,这可都是今春最热门的流行元素。 </FONT></P>
<P align=center><FONT face=Verdana><A href="http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578_1.html#nextpic"><img src="http://image.rayli.com.cn/0002/2008-03-17/images/2008317221115894.jpg" border=0 alt='08春夏甜美女生必备单品'></A></FONT></P>
<P align=center><FONT face=Verdana>(单击图片可进入下一页)</FONT></P>
<P><FONT face=Verdana>大项链,多样色彩是关键,项链一定要够大,把炫目的色板串在一起,就象春日里七彩的好心情。</FONT></P>
</div>

其实采集基本上就是把这些采集出来就好了

[ 本帖最后由 7451 于 2008-4-9 11:12 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2008-4-7 19:31:20 | 显示全部楼层
真是累死我了,没想到写这个这么累,要考虑顺序,还要注意细节,有些东西还要想怎么才能说清楚
累死我了,扔几个车厢让我休息会吧.
西边的太阳快要落山了,微山湖上静悄悄.弹起我心爱的土琵琶,唱起那动人的歌谣.爬上飞快的火车,像骑上奔驰的骏马.车站和铁道线上,是我们杀敌的好战常我们爬飞车那个搞机枪,闯火车那个炸桥梁,就像钢刀插入敌胸膛,打得鬼子魂飞胆丧.西边的太阳就要落山了,鬼子的末日就要来到.弹起我心爱的土琵琶,唱起那动人的歌谣.哎嗨……
[wma]http://www.xymy.net/upload/forum/2006112907463383.wma[/wma]


因为我现在基本上只用web发布,就是所谓的模块发布,采用CMS系统,这样的话,有可能会照顾不到使用别的系统的用户,而这些东西在论坛里是可以找到教程的.只要能发布就好,重点在于点击自动获取数据后得到的代码 就可以了 本人采用 沦陷今生 的发布模块,还未测试php随机发布. 呵呵 没有车厢.

注意每个发布标签的必要性,前面采集必须要有数据对应,或者CMS系统有相应的默认数据


[ 本帖最后由 7451 于 2008-4-7 22:54 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2008-4-7 19:31:42 | 显示全部楼层

采集网址规则



空数据框
加入网址http://www.rayli.com.cn/region/C0002008001.html
一般先采集数据 然后在仅保留index页保持更新

最初测试

采集到的网址

这里因为没有做任何设置采集到的是所有链接,我们可以在设置界面通过区域设定和链接设定过滤掉没用的地址

http://fashion.rayli.com.cn/0002/ 这里填写的数据
技巧:可以通过网址控制采集数据的日期,因为网址都是带日期的
比如我全站采集,但是老的数据没有意义,比如2006年的数据
我在必须包含的数据里写上2008后只要网址里没有2008就会被过滤掉了

看这张图就明白了吧 采集后的数据

[ 本帖最后由 7451 于 2008-4-7 23:10 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2008-4-7 19:32:10 | 显示全部楼层

采集内容规则


把具有采集特点的内容页作为测试页 如下图
http://fashion.rayli.com.cn/0002/2008-03-17/L0002008001_294578.html

一般要采集的就是标题 内容 关键字
像作者 时间 出处 可以自己斟酌
标题的采集

有经验的网友可以看出 下面是啃书的替换内容 目的就是替换掉标题的版权信息
因为内容页的标题程序一般是 实际标题+栏目名称+频道名称+网站名称的字符串链接
所以替换干净就好,在这里没必要加自己的版权,因为发布时会自动加上.


直接截取 内容段的块 一般都是干净块 替换掉不相干的内容就好
选择下载图片时 要在第四项 文件保存及发布设置里设置好路径,要不图片显示会不正确

我们在前面讨论了分页模式的截取代码
直接写道里面 试试看能不能识别出来
火车头的识别能力还是很高的.
可以看出 测试代码那里已经正确识别出分页文章 并采集了

分页链接码是一个很重要的东西 是在文章发布里 起到链接分页的分隔符
如DZ的"|||" CMS的"[next]" 这样文章发布才能产生分页,不写的话,会一篇一篇的发,也不错 哈哈
这里还缺少些标签代码  是一回做整站替换用的

[ 本帖最后由 7451 于 2008-4-7 23:28 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x

评分

1

查看全部评分

 楼主| 发表于 2008-4-7 19:32:45 | 显示全部楼层

等待明天凌晨的利物浦对阵阿森纳 哇咔咔 开始写教程,今天自己做了规则 采集了美容频道的2008年的全部文章,开始是一个栏目一个栏目的做,下载图片,上传图片,发布,做了一上午.累了,下午开始几个栏目一起写规则,因为我不是做女性专门站所以频道划分不是很精细,只要是符合大类就好了,然后又是下载上传,发布.在等待中看网页,睡觉,被打3C的哥们抢带宽.想一个规则整站发布的可能性,及实现方法.发现对于phpcms来说很难,我没用过DeDe,不了解,以前改过帝国和动易的源码,现在也忘得差不多了,印象是可以的,不知改版后怎么样.在这里大体说下思路和应对办法.

前面我说过,核心的可以称为灵魂的东西就是"序和可识别",我们现在分析一下实现整站的话,需要准备什么东西.第一在一个规则下,采集内容页能分辨出频道和栏目特征,这里的解决方案很简单,因为大多数内容页都有网页导航 就是所谓的 "首页 >> 频道名称 >> 栏目名称" 这里做好规则就可以识别出,此篇文章的具体位置.OK放置一边备用.下一步我们要了解CMS的发布机制.对于PHPCMS来讲,火车头采集器的web发布模块是要写死频道ID的,而栏目ID是可控的,也就是说在一定情况下,对于PHPCMS想跨频道发布是不可能的.对于栏目而言,是每回要选择的,想在其下更改或者是修改ID的可能性有,但是要同时修改火车头的发布模块,新手一般可能会导致无法发布的烦恼死循环.那我们只能是接用CMS系统的功能,用别的方法实现.例如phpcms的typeid,其本意表现的是文章类型,也就是平常我们看到的"图文""组图"等等,在这里我们可以用它实现下级栏目,比如"美图""美文""彩妆"等等,因为typeid是可以写在post里的一个标签.而在前台表现上也和二级栏里表现一样.只是在文章结构归类上,和数据库分表存储上的程序层不一样.基本对于不是很大的站来说,没有任何影响.每个typeID对应前面的一个栏目分类.怎样转化,在标签里进行文字替换.
例如我们的内容是 首页 美容 彩妆 我们就把在发CMS里设定的相对应彩妆的typeid替换掉.而对于DZ也可以这样设定,只要在内容页能识别出来的.在发布模块能post的就可以替换.就可以整合.


[/quote]
这里没有图 是因为采集的机器没在,明天上午给大家发布一个 小说的规则 DZ2DZ 自动分类的 目标源 啃书论坛 嘿嘿 不过是图片版的.
今天放出瑞丽的栏目采集规则.心急的朋友可以先玩着.

[quote]

最终栏目规则实例 这里是单个栏目的规则
2级栏目规则实例这里是彩妆栏目的规则

当规则导入后,可以看出唯一的区别就是采集地址不一样,采集地址起始位置不一样.也就是说在不同的采集页面找出相同点和不同点的规律.加以利用就OK了.开始GO!!!
里面包含了我的网站的一些信息,没有除去,方便大家举一反三,知道哪些地方需要替换自己网站的什么地址,但相对于高手就高抬贵手,不要挂马,谢谢.祝大家今晚愉快.GOODLUCK! 吃晚饭,休息,准备看球.可爱的利物浦,哈哈.


[ 本帖最后由 7451 于 2008-4-9 00:05 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2008-4-7 19:33:39 | 显示全部楼层
可爱的利物浦赢了
刚醒,凌晨真是一波三折啊,但毕竟可爱的利物浦赢了,哈哈.今天继续美丽的女性网站.对于瑞丽的规则,其他的就不写了,可以说基本相同,刚才测试了下通用性,只有2006年左右的文章由于代码结构不同,会在内容标签内采集到分页数据,但基本无碍.对于瑞丽的采集基本就到此结束,一个规则整站采集在PHPCMS没有推出2008版之前基本不可能,也继续等待火车头的2008.有人可能会说我标题党吧,你标题上写的整站.但说实话,如果你仔细看了前面的帖子,如果还是搞不定采集,那么我在7楼等你的消息,仅仅是更改栏目地址而已.

昨天看了篇帖子关于JS采集的,火车说是没有JS的下载项,更新了DLL文件.对于以后的采集会越发的困难,唉,有时间我也去看看JS,做个防采集,哈哈,来个火车头大碰撞,忽忽,满精彩的.开玩笑了,现在更新dll后,问题应该解决了.还在看post的东西和JS分页,不会啊,有谁教教我.或者推荐一个是这种的采集规则,我模仿下 ,呵呵 在此召唤版主写教程.

[ 本帖最后由 7451 于 2008-4-9 11:10 编辑 ]
 楼主| 发表于 2008-4-7 19:34:06 | 显示全部楼层
等待问题,没有就是站楼
贴下 采集后的效果地址 www.gumore.com

[ 本帖最后由 7451 于 2008-4-9 11:11 编辑 ]
发表于 2008-4-7 19:35:59 | 显示全部楼层
快点放内容出来吧。
发表于 2008-4-7 19:42:10 | 显示全部楼层
我已经准备好20个车厢,就等楼主的详细教程了.
发表于 2008-4-7 19:49:09 | 显示全部楼层
沦陷今生 我喜欢你的车厢
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-3 16:06

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表