kingliu 2005-12-13 20:38
LocoySpider采集器详细使用教程
高手就木来打击俺了,嘿嘿。图多,慢慢看吧,哎,火车MM刚出了新版,就写这个了,最新版去官方下吧,估计一会火车MM就发这来了,教程依据最新LocoySpider1.04版所写。
[b]LocoySpider帮助文档[/b]
1.程序介绍
LocoySpider[url=http://www.chinacnw.com/]是中国菜鸟网[/url]推出的一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的数据发布或导入到任何一款程序支持的系统中,目前支持的系统有:phpwind3.x/4.x discuz2.5 /3.x/4.x全系列 Dvbbs phparticle Dedecms xydw phpcms leadbbs epcms。
2.使用环境和安装说明
2.1 使用环境
LocoySpider采用Visual C#编写,可独立在Windows2003下运行,如您在Windows2000、Xp等环境下使用请先到微软官方下载一个.net framework1.1或更高环境组件:
附:.net framework 1.1下载地址:[url]http://www.microsoft.com/downloads/details.aspx?FamilyID=262D25E3-F589-4842-8157-034D1E7CF3A3&displaylang=zh-cn[/url]
.net framework 2.0下载地址:[url]http://www.microsoft.com/downloads/details.aspx?familyid=7ABD8C8F-287E-4C7E-9A4A-A4ECFF40FC8E&displaylang=zh-cn[/url]
2.2 安装说明
当您系统配置好程序运行环境后,请在我们[url=http://www.chinacnw.com/][u]官方网站[/u][/url]下载最新版本的LocoySpider,程序使用[url=http://www.crsky.com/]winrar[/url]压缩打包,下载后请使用winrar.340以上解压,然后进入程序目录双击LocoySpider.exe即可运行。
3.界面说明
3.1 采集网址列表
[img]http://99dy.008.net/help/img/urllist.png[/img]
3.2 采集器配置
[img]http://99dy.008.net/help/img/peizhi.png[/img]
3.3 采集规则修改与配置以及规则测试
[img]http://99dy.008.net/help/img/guize.png[/img]
3.4 采集器登录系统对象
[img]http://99dy.008.net/help/img/login.png[/img]
3.5 采集器导入数据(待完善)
[img]http://99dy.008.net/help/img/data.png[/img]
4.操作流程说明
4.1 确认采集目标网站,在此我们以采集163教程为例;
[img]http://99dy.008.net/help/img/1.png[/img]
4.2 打开LocoySpider,输入我们要采集的地址“[url]http://news.163.com/special/g/0001124K/gnywmore.html[/url]”,并输入采集规则:在连接地址必须包含中输入“/05/”,页面内区域选定采集网址中输入:从“国内新闻”到“专家推荐”,当年,对于你要采集的站点,你就需要具体情况具体分析了,不过基本大同小异;
[img]http://99dy.008.net/help/img/2.png[/img]
4.3 点击采集连接,我们会看到采集到的相应连接,保存名称为“news-163”。
[img]http://99dy.008.net/help/img/3.png[/img]
4.31对于某些站点,如sunvv的爱情笑话,我们采集其网址的时候,可以使用网址添加方式2的手动数字递增相似网址的功能,在相似网址里面填入[url]http://www.sunvv.com/list/6_[/url][color=#ff0000](*)[/color].html,然后通配符范围填1-3,当然对于你的采集就需要具体情况具体分析了,对于某些站点可能还需要选择那个补零选项,具体问题具体分析了,然后点击生成网址,等需要的网址生成后,在按照上一步的操作,连接地址必须包括填入/joke/[color=#ff0000](注:此处限定同样支持正则,你限定的条件越准确越能抓取到你需要的地址)[/color],然后点击右下脚的采集多页二级连接,当全部采集完成后,命名,love,然后点击保存二级网址;
[img]http://99dy.008.net/help/img/2ji.png[/img]
4.4然后我们进入下一步全局配置,单击新建规则
[img]http://99dy.008.net/help/img/4.png[/img]
[img]http://99dy.008.net/help/img/6.png[/img]
4.5现在我们在浏览器中打开刚才我们采集到的网址列表中的任一条连接,察看其源代码,浏览器的上面菜单栏查看-源文件。
[img]http://99dy.008.net/help/img/5.png[/img]
[img]http://99dy.008.net/help/img/7.png[/img]
4.6查找标题,并在采集器中写入规则,就是找出标题两边的网页原码是什么,然后填入到相关框框里面;
[img]http://99dy.008.net/help/img/8.png[/img]
[img]http://99dy.008.net/help/img/9.png[/img]
4.7查找内容,查找你需要采集内容的两端限定网页代码,注意,限定代码必须唯一,然后填入采集器相关框框;
[img]http://99dy.008.net/help/img/10.png[/img]
[img]http://99dy.008.net/help/img/11.png[/img]
4.8在排除内容中输入需要排除的内容,就是去掉那些讨厌的广告阿,还有那些影响破坏采集后网页布局的代码,支持正则排除。(注:如遇到每页都有可能不太一样的内容,可以用(.*)来替代,以这个规则为例“
”
为要排除内容,但alt="锁锁",不是每页都一样的,我们用alt=“(.*)"来替换它,正确的排除为“
"”
[img]http://99dy.008.net/help/img/13.png[/img]
4.9在页面测试中输入刚才的网址,并点击开始进行测试下刚刚配置的规则,看是否能争取采集到您所需要的标题,内容等信息,成功,则命名规则,然后点击保存;
[img]http://99dy.008.net/help/img/14.png[/img]
4.10好了,下载我们返回全局配置,刷新两边的列表,找到刚刚采集的网址列表和刚刚建立的与之相匹配的网页规则,把前面的小框框钩上,进入下一步登陆发表
[img]http://99dy.008.net/help/img/15.png[/img]
4.11选择你需要发布的系统,即确保系统代码类型列表中针对你所选用的那款系统前的小圆圈中有个黑点:),然后输入登陆地址及登陆名称、密码等,点击登陆,会看到登陆成功
[img]http://99dy.008.net/help/img/16.png[/img]
4.12对于dedecms的登录,我们需要点击登录后,再点击刷新列表可能提示无法获得cookies,这个时候我们就需要手动来伪造一个cookies,使用的工具有,WinSock Expert、oprar等,下面介绍怎么使用opera浏览器来获得并伪造cookies,用opera打开你的dedecms登录页,然后登录,登录成功后,进入opera菜单的首选项;
[img]http://99dy.008.net/help/img/shou.png[/img]
然后进入到高级菜单,点选里面的Cookies;
[img]http://99dy.008.net/help/img/gaoji.png[/img]
找到你刚刚登录的网址,比如我本地测试的就是下面这个,点击,就会看到下图样的;
[img]http://99dy.008.net/help/img/king.png[/img]
双击图里面面的那个PHPSESSID:.........那个就可以看到下面这个菜单,当然,你也能够看到类似的界面的;
[img]http://99dy.008.net/help/img/liu.png[/img]
拷贝上面的PHPSESSID和下面的ae34c0a.......940到采集器的伪造cookies那个框框里面去,然后在PHPSESSID和ae34c0a.....940直接用=连接,即PHPSESSID=ae34c0a.....940的形式,当然每个人的ae....后面这串是不同的,OK,成功,然后再点刷新列表,看到什么了,:)自己试,这个不截图了,其他需要伪造cookies的系统类同操作。
4.12嘿嘿。话接上面成功登录的PW系统,先刷新下列表,选择要发布到的id(注:有时可能刷新不出来,我们也可以自己手动添加id),点击发表,我们会看到已经开始采集了
ps:表激动啊!~~
[img]http://99dy.008.net/help/img/17.png[/img]
4.13我们来看看采集的结果吧
ps:哈哈,成功了~~
[img]http://99dy.008.net/help/img/18.png[/img]
最后,要是还不会,建议买两片豆腐回家,撞死。
[b]本教程Made By King.Liu&小木飞刀&火车MM[/b]
[b]如您还有任何问题,欢迎加QQ:375856862 QQ群:16326410 或者登录我们的官方网站参与讨论。
[/b]
火车头 2005-12-13 20:42
我站上也保存了一份
[url]http://www.chinacnw.com/spider/help.htm[/url]
helloxnet 2005-12-13 21:09
火车头是个MM?
PFPF : )
jjyyy 2005-12-14 11:23
我想知道怎么采集需要验证的论坛或网站,不用验证的我会!
为什么获取标题弹出这么多对话框,是不是没有把程序中的调试语句屏蔽掉啊。
小木飞刀 2005-12-28 14:28
[quote]原帖由 [i]jjyyy[/i] 于 2005-12-14 11:23 AM 发表
我想知道怎么采集需要验证的论坛或网站,不用验证的我会!
为什么获取标题弹出这么多对话框,是不是没有把程序中的调试语句屏蔽掉啊。 [/quote]
现在还不能采集需要验证的网站。
purpleplane 2006-1-14 22:10
我用的是 dz 4.0,刷新列表时分类ID没法出来,手动添加的,我的写法是 id=3 ,上传时是这样的。 未知[]来自....[url]http://......[/url] html! 去论坛看,并没有显示上传的内容。是哪里没设置对吗?哪位达人给点拨下。
purpleplane 2006-1-14 22:11
OK再刷新一次分类ID出来了,可是上传到论坛好象论坛并没有出现上传的东东呀。
[[i] 本帖最后由 purpleplane 于 2006-1-14 10:13 PM 编辑 [/i]]
zb787 2006-2-19 05:02
采集页面测试里得到我想要的代码,我也登陆论坛了,怎么就是发不了帖,我用的是DISCUZ4。0
西子 2006-3-23 16:55
我不懂,如何把文章采集到心雨的程序网站里?请教呀。
原始森林 2006-3-25 09:15
你解决了吗??我碰到了和你同样的问题了!!!!
[quote]原帖由 [i]purpleplane[/i] 于 2006-1-14 22:10 发表
我用的是 dz 4.0,刷新列表时分类ID没法出来,手动添加的,我的写法是 id=3 ,上传时是这样的。 未知[]来自....[url]http://......[/url] html! 去论坛看,并没有显示上传的内容。是哪里没设置对吗?哪位达人给 ... [/quote]