找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6144|回复: 3

利用火车头采集软件,给DZ1.5论坛进行内容填充

[复制链接]
发表于 2010-12-1 19:07:55 | 显示全部楼层 |阅读模式
Discuz!X 1.5 菜鸟建站系列教程 - 第四章 - 利用火车头采集软件,给DZ1.5论坛进行内容填充

HI...实在抱歉,前几天比较忙。。。服务器出了点小问题。。。鼓捣了3天。。。擦。。。。

另外我说下,前几天有好多朋友加我,上来二话不说就开骂。。。说我写的教程,内容全部引用别人的东西,然后改成自己的。。。这里我十分无奈。。。我不想说什么。。。真的假不了,假的真不了。。。或许我的教程和别人的雷同,但是图片以及文字全部是自己写的,没有实行“拿来主义”。。。

还有。。。好多朋友一加上,就问dz怎么安装呀,数据库那里怎么填写呀。。。这里我也比较无奈。。。我很同情你们,因为我也是从啥也不懂走过来的,所以我进行的一一的解答。。。但是你要明白,谁的时间都是有限的。。包括我。。所以,在这些问题上,跪求大家自己仔细琢磨下,数据库怎么填写,你想想啊。。。你网站的注册数据,帖子数据都保存到哪里?当然是数据库啊。。数据库帐号和密码是多少?这些东西你自己知道啊。。我哪会知道。。。所以。。。。。。当然,如果自己实在解决不了。。。那么也可以问我。。。只要我有时间,会为大家一一解答。。。
OK。。。 这节课,我们讲的内容是,利用火车头采集软件,给我们的新站论坛进行内容填充。。。以及。。。火车采集软件的采集规则的写法!

注意:此教程用的模块以及接口,全部引用尘缘免费版,不支持附件入库,以及远程附件,如果大家需要附件入库,那么请看下期教程,ET采集软件的采集教程!


本课对于新手菜鸟,稍微有点难度。。。不过只要努力,多向百度请教,多骗她,就没有解决不了的问题,就没有泡不到的妞! 哈哈!

提示,一下采集,是采集基于dz1.5架构的站点。。都是大同小异。。。在最后,献上几个采集规则。。大家自己揣摩下。。


OK! 那么,我们首先要去下载火车软件
下载地址:http://www.locoy.com/Down/ 我们下载免费版。。。。
注意:想要找小姐就必须得花钱。。。要不然人家不让你上。。。so。。。想用火车,就必须得安装.NET FrameWork 2.0框架或更高版本
.net framework 2.0下载地址: http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
OK。万事俱备,只欠小姐。。NO 。。之欠东风。。。SaoRui。。。
那么,火车我们也下载到本地了,。net框架,我们也安装了。。。
那么,我们把新下载的火车采集软件,解压下。。。
看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。

上图中,用红线圈住的LocoySpider.exe 是主程序,我们双击打开。。。

ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。
我们会看到火车的界面,看起来非常复杂,是吧? 呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。
我们先补习一下,火车头采集软件的工作原理。。。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?
我们看下网站的基本结构。。。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
-------这些蓝色的东西,对于新手,我们不需要知道!
<title>网页的标题</title> ----红色的是网页的标题。。。如下图(1)
</head>
<body>
内容               
在这个<body>和</body>之间的,是网站的内容部分。。如下图(2)
</body>
</html> ----------这里是网站的结尾。。。。

如果想查看一个网页的html源文件,之需要点击浏览器上的 查看,源文件即可。。。。
(1)

(2)

那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了
火车采集软件是怎么采集的呢?
我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。。。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<title>网页的标题</title>
</head>
<body>
内容
</body>
我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是<body>,结束标签就是</body>
明白了么?呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例,在好好巩固下就OK。。。

OK。。那么我们开始一步一步教大家设置采集规则。。。
首先第一个。。我们的目标站。。discuz!x1.5架构的网站。。。http://www.yq90.cn/forum-60-1.html
我们要把这个版块的内容以及回复都采集到我们的网站上去。。。
首先我们打开火车,新建一个站点。。。点击火车左上角上的新建按钮,选择新建站点。。。如下图

我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!
然后。。。在这个站点下,新建一个任务。。。选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。。。如下图


其中1,是任务的名字,必须填写。。。2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。。。5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!
OK。就这些,那么,我们一步一步的来!
首先我们给我们的任务加一个标题。。。
下一步,我们就开始设置列表的采集规则

(因为现在火车不知道 http://www.yq90.cn/forum-60-1.html 这个页面的文章列表是那些,所以我们要告诉火车!)




这里有两种方式,新手嘛,我也不知道适合哪种。。。我们就用默认的吧,第一种
我们点击向导添加

然后出现下图。。

其中有4个选项卡,
如果我们只采集目标站点的一个文章列表http://www.yq90.cn/forum-60-1.html,那么我们选中单条网址,直接写上目标的列表网站,如下图!

然后点击添加,点击完成就OK。。
那么,如果我们要采集多个列表。那么我们回到
看下边的图

其中1,是目标网站的地址
其中2,是火车的通配符(就是某个东西识别的东西)
其中3,是间隔数已经补零(下边一一讲解)
其中4,数字变化。。。下边讲解
其中5,字母变化。。。
那么。。。看下图

图中在地址栏填写的是 http://www.yq90.cn/forum-60-(*).html 这个。
那么,这是什么意思呢? 我们打开 http://www.yq90.cn/forum-60-1.html 这个地址,然后点击下一页

发现地址变成了 http://www.yq90.cn/forum-60-2.html
那么我们在点击下一页,就是第三页,发现地址变成了 http://www.yq90.cn/forum-60-3.html
那么在点击第四页。。想必大家也知道变成什么了吧? 那么
第一页:http://www.yq90.cn/forum-60-1.html
第二页:http://www.yq90.cn/forum-60-2.html
第三页:http://www.yq90.cn/forum-60-3.html
翻页中,我们发现,只有1在变化。。。那么我们在火车那里就填写
http://www.yq90.cn/forum-60-(*).html 这个,其中1用火车的通配符(*)替换掉。。。意思就是,只有1在变化。。。
在看下边

其中数字变化,从1到5.意思就是
从地址栏 http://www.yq90.cn/forum-60-(*).htm获取地址 1到5,就是下边这样的。。。

http://www.yq90.cn/forum-60-1.html

http://www.yq90.cn/forum-60-2.html

。。。

http://www.yq90.cn/forum-60-5.html


明白了么?其实很简单。。。
那么字母变化,就是

http://www.yq90.cn/forum-60-a.html

http://www.yq90.cn/forum-60-b.html

。。。

http://www.yq90.cn/forum-60-z.html


因为我们目标地址是数字变化。。。我们继续看下边

间隔倍数,和补零。
间隔倍数1是什么意思?40又是什么意思呢?
间隔倍数1就是

http://www.yq90.cn/forum-60-1.html

http://www.yq90.cn/forum-60-2.html

。。。

http://www.yq90.cn/forum-60-5.html


间隔倍数40就是

http://www.yq90.cn/forum-60-40.html

http://www.yq90.cn/forum-60-80.html

。。。

http://www.yq90.cn/forum-60-200.html


明白了么?
那么我们在看补零,补零就是。。。

http://www.yq90.cn/forum-60-01.html

http://www.yq90.cn/forum-60-02.html

。。。

http://www.yq90.cn/forum-60-05.html


就是这样。。。其实很好理解。。。
OK。。我们继续。。。
我们填写完成后,点击添加 - 完成。。如下图


到这里,我们的地址就添加完成了。。。那么下边,我们来设置区域列表。。。

我们先设置第一个。。。“文章内容页面地址必须包含。。。不得包含。。。”
我们随便点开http://www.yq90.cn/forum-60-1.html 这个网址中的两篇文章,看下URL。。就是文章地址。。
http://www.yq90.cn/thread-88312-1-1.html
http://www.yq90.cn/thread-88373-1-1.html
发现以上两个地址。。。那么他们其中只有 http://www.yq90.cn/thread-88373-1-1.html 红色部分在变动。。。那么,文章内容必须包含。。。我们写 http://www.yq90.cn/thread-(*)-(*)-(*).html 这样就可以,那么我们点击“开始测试网址采集”


这个时候,我们点开网站前边的+号

发现,其实网址已经采集成功了。其中的并不需要填写。。。这是为什么呢?因为我们采集的页面 http://www.yq90.cn/forum-60-1.html 中的文章地址,就是 http://www.yq90.cn/thread-88373-1-1.html这样的地址,至于为什么要写成http://www.yq90.cn/thread-(*)-(*)-(*).html这样,是因为其中的
http://www.yq90.cn/thread-88373-1-1.html 红色部分都会变动。。或者有可能变动。。。所以我们加上通配符,
所以我们不用填写这个,也可以采集成功。。。
那么,为了让大家更直白的了解火车,我们还是写一下。。。。
那么我们打开 http://www.yq90.cn/forum-60-1.html 这个地址,在页面中,点击右键,选择“查看源文件”(因为不好截图。。。)

发现上边的东西出现,都是一些猥琐的html代码。。。
我们怎么定义文章地址的区域呢?看下图

我们复制页面中的“筛选”然后在页面源码中查找下,,,

那么自然,下边的,就是文章地址的区域咯。。那么我们在这里,填写什么呢?我们要填写一个“唯一”的东西。。。就是这个页面独有的一个,并且在文章地址上方的一个代码。。。

如上图。我们选择这段 <div id="pgt" class="bm bw0 pgs cl"> 代码!然后我们复制 <div id="pgt" class="bm bw0 pgs cl"> 这段代码,在我们打开的源文件中,向下查找看,看看有没有相同的。。。

好消息。。没有相同了。。那么我们在填写 <div id="pgt" class="bm bw0 pgs cl">
那么这里怎么填写呢?其实一样。。。



我们给下看看源码。。。

我们向上查找下。。。

OK....那么。。。就填写.
就OK。。。照着这样填写就OK了。。。其实这一步是多此一举。。。只是教大家怎样填写罢了。。。

我们随便选中一条地址,双击鼠标左键。。。直接跳到第二部,采集内容规则。。。

在这里,我们点击一下测试按钮。。。

发现,标题和内容都采集到了,但是。。。在标题上,我们把目标站点的网站主标题也采集过来了。。而内容。。是把整个页面乱七八糟的东西都采集过来了。。那么。。我们开始设置更精确的采集规则。。。擦。。。
首先,我们设置标题。。。
现在默认的采集标题是

又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!

我们需要的标题是红色部分。。。那么。。。

我们双击上图被圈住的地方。。。

那么我们需要设置的地方就是

那么。我们现在采集到的标题是
又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!
这个,那么,我们只需要把蓝色的部分去掉。。。
怎么去掉呢?下图

我们添加

然后点击确定

点击测试

发现
又出来个史上最强大的搜索引擎!!!!!!! - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!
蓝色部分已经被去掉。。。
那么我们这里来解释下。。。

上图中的开始字符串<title>和结束字符串</title>是什么呢?
我们打开 http://www.yq90.cn/thread-88389-1-2.html 这个页面,然后查看下源文件。。。如下图。。。

可以发现,在<title>和</title>中就是我们要采集文章的标题,只是多了- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz! 这个,那么我们排除就可以了。。。那为什么在

中,要写成
- (*) - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!
这样的呢?为什么把 无聊扯蛋换成了(*)呢?
因为我们可以看得出

- 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!


无聊扯蛋 只是这个网站的一个版块,如果采集别的版块,那么 无聊扯蛋,就会变动。。。到时候我们还得设置排除标签。。索性,我们把它改成通配符(*),那么在采集别的版块,就不用设置了。。。
那么其中的蓝色部分,是网站的主标题,在一般情况下是不会变动的。所以不用搞成通配符。。。
那么。。标题。。我们就设置完成了。。。下边来设置内容部分。。。
内容部分的采集规则设置,其实和列表一样!

我们服饰内容,在源文件进行查找。。

其中选中的部分,就是我们的内容部分。。。
那么。。。我们在源码中 查找下 <div class="t_fsz"> 这个标签,看看是不是唯一的。。。 发现并不是唯一的。。。而是每个楼层也就是回帖的内容都是用 <div class="t_fsz">和</div> 括起来的。。。那么。。。我们就输入

上图所示。。。在图中的 html标签排除。。我们全选。。。因为我们之后的发布,是不支持发布附件的,也不支持html。。。所以全部排除。。然后确定。我们测试下

其中内容和内容之间,用|||分割开了。。这是啥意思类?
呵呵。。。这个是循环匹配。。。就是。。。一个楼层与楼层之间的分隔符。。就是回复与回复之间的分隔符。。。
哎呀。我也说不清楚啦。。总之。。这样就可以。。默认,保持不变就OK。。。。
那么。。。现在,标题也设置OK。。。内容也OK。。。
接下来就是分页问题。。。

我们在源文件中查找“下一页”

那么图中被选中的地方,就是下一页的全部源码。。。
那么,我们选中下一个的开始标签<div class="pgt"> 和结束标签</div>,对应输入到

就可以了。。。
我们在

分页内容合并链接代码这里输入|||这个。。。至于什么意思。。就是分页嘛。。我也说不清楚。总是输入就是了。。。
那么。到这里,网址采集部分,和内容采集部分已经设置完毕了。。。下边,我们要讲,发布。。。

现在开始讲解 火车头的发布。。。
因为我们需要发布到 我们的 discuz!x1.5的程序上。。。那么,首先我们需要两个东西
1.火车头的dz1.5的发布模块 (尘缘免费版)
2.免登录接口 (尘缘免费版)
那么。。下载地址。。。。
http://u.115.com/file/f2171fad7e
如果下载地址失效。。请加我QQ 索取 782711659
下载后,解压。。。

首先呢。。我们需要配置接口。。。我们进入接口文件夹。。。并且进入对应编码的文件夹

发现有两个php文件。。。 其中的 Locoy.php是程序主文件,可以改名,Locoy.config.php是配置文件,不能改名。
那么我们先把Locoy.php的名字改掉。。我们改成 woca.php

然后我们打开locoy.config.php 这个文件

其中1,是发帖的用户,2,是回帖的用户。。。这里我们可以填写自己的。。记得用|||分开。。这里说下,我们填写的用户名,可以是网站没有注册的,也可以是注册过的。。。如果没有注册的,它会自动注册。。。剩下其他的配置参数,可以根据自己的需要更改,都有注释,这里就不一一解释了。。。
更改完成后,我们把这两个文件上传到我们空间的根目录。。。

OK。。接口文件我们已经处理完毕。。那么。。我们开始处理发布模块。。。
进入火车。。。




我们导入圈中的模块。。。。因为我已经导入过了。。所以这里不用。。。


在图中圈住的地方。。。我们要修改成我们自己改的名字。。。如图。。


记得在刷新列表那里也要修改。。。
OK。。模块基本完成了。。还有一点。。。
如果我们的版块开启了主题分类,,,

那么我们还需要修改下模块。。。
比如我们要给维修知识里边发。。那么。。。

发现主题分类的typei=1 那么我们在发布模块中填写。。


明白了呗? 呵呵。。就这样我们的发布模块就配置完成了。。。 我们保存。。给它加一个名字。。。

然后我们关闭当前的模块。。。

我们选中我们刚才修改过并且重命名的模块。。然后进行填写信息。。。如下图。。

其中1,输入我们的网站地址。。。2,把“目标网站需要登录的沟,去掉。。。”3.点击一下获取列表。。。4,填写一个名字,并且保存配置

在空白处,点击右键。。选择添加更多发布配置。。然后选中我们刚刚配置好的模块!选中,点击添加。。。

记得选中启用。。。。下一步,我们点击选择分类

选择我们要发布的版块。。。
然后确定。。然后保存。。更新。。。。

点击开始按钮。。。

采集内容列表中。。。

采集内容中。。。

发布成功。。。偶尔有一两个发布失败。。别管它。。。那是有点帖子内容太少,而你的论坛设置帖子字数的原因。。。




OK。。就这样。。很简单吧? 呵呵。。。
扩展阅读(采集规则):
下载地址 http://www.yq90.cn/jiaocheng/yuanchuang/4/gz.rar

另外,本人有偿代写规则。。。Q 782711659

教程地址:
http://www.yq90.cn/jiaocheng/yuanchuang/1 - Discuz!X 1.5 菜鸟建站系列教程 - 第一章 - 简介
http://www.yq90.cn/jiaocheng/yuanchuang/2 - Discuz!x1.5(简称DZ1.5)的安装及简单的配置使用及简介
http://www.yq90.cn/jiaocheng/yuanchuang/3 - Discuz!X 1.5 菜鸟建站系列教程 - 第三章 - 会员批量注册 / 虚拟在线会员
http://www.yq90.cn/jiaocheng/yuanchuang/4 - 利用火车头采集软件,给DZ1.5论坛进行内容填充
http://www.yq90.cn/jiaocheng/yuanchuang/5 - 利用ET(EditorToolsfree)给DZ1.5门户文章进行内容填充!
http://www.yq90.cn/jiaocheng/yuanchuang/6 - DZ1.5的DIY功能的使用!
http://www.yq90.cn/jiaocheng/yuanchuang/7 - 认识DW (Dreamweaver) 及简单的应用!
http://www.yq90.cn/jiaocheng/yuanchuang/8 - 认识DZ1.5的模板!
http://www.yq90.cn/jiaocheng/yuanchuang/9 - 简单的SEO知识!
http://www.yq90.cn/jiaocheng/yuanchuang/10 - DZ1.5的备份与搬家! (利用帝国备份王)
http://www.yq90.cn/jiaocheng/yuanchuang/11 - 闲暇扯蛋....(总结,注意事项!)

如果地址打不开,那么意味着还没有写。。。。保存吧。。哈哈
推荐站长站:
http://www.admin5.com
http://www.chinaz.com
推荐站长论坛:
http://bbs.chinaz.com
http://bbs.admin5.com
(排名不分前后)

只要努力,一切皆有可能。。。
联系小强:Q 782711659
支持网站(AD):张家口综合门户网 http://www.yq90.cn
发表于 2010-12-2 11:06:19 | 显示全部楼层
这个太省事了啊  哈哈
发表于 2011-4-13 20:45:03 | 显示全部楼层
什么图也看不到。晕啊
发表于 2014-1-6 14:59:01 | 显示全部楼层
图咋都是空的?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表