zcard 发表于 2010-7-21 13:09:59

3839游戏采集最新版

本帖最后由 zcard 于 2010-7-23 16:15 编辑

目标站:3839小游戏网
采集规则:使用于任何一个3839 栏目
目标数据:365885条(截止时间:2010-07-23 16:16)

有图为证:



以前发过一个帖子,是关于3839的,好久没有看了,最近发现他改版,说实话版面没有以前漂亮!

今天把新版的采集新的说一下!

等我把他的默认的常规分页列表采集结束后,再去采集“最新游戏”栏目时发现,“最新游戏”栏目里面有很多的游戏在常规分页列表中没有,

常规分页列表里面可以采集到大约2万多条数据,在“最新游戏”列表中还可以采集到1万多条数据,

这两个地方,我一共采集了36308条数据,如下图:



采集的项目如下图:



然后又发现一个问题,那就是在采集到的游戏地址当中(也就是swf文件),有很多不是swf结尾的地址,而是“htm”或者“html”结尾的地址

打开这个html或者htm页面查看源码显示,swf文件地址,就在这个页面,这样子的数据大约有1500条

本着让火车给我们采集数据最完美的原则,就有了这篇文章;

总结:这个网站的swf文件大多是可以在播放页面一步就可以采集到,但是出现如上图的数据怎么办?(就是采集到的地址不是.swf结尾,而是.htm或者.html的怎么办?)

我采取了最笨的办法(也是最麻烦的办法ali78ls):

1、按照常规采集所有数据(包括.htm或者.html结尾的地址),火车规则1
2、自己写代码把数据库中包括.htm或者.html结尾地址的数据筛选出来,并把本数据的显示页地址取出到文本文件
3、根据这些包括.htm或者.html结尾地址的编码再写一个火车规则2,把真实的.swf地址采集下来
4、把火车规则2采集到的数据,通过写程序去对照火车规则1采集到的数据,并把些包括.htm或者.html结尾地址的数据修改为.swf结尾的地址

下面的附件是我最终整理的数据库(内含36308条数据,截止日期2010-07-21 12:57),以及常规采集规则,即:火车规则1

这个可是小游戏站长的福音啊,有了本数据,你只需要针对自己的cms写发布规则就可以了(有需求可以找我哦,qq:326243419)

**** Hidden Message *****
**** Hidden Message *****

最后:

感谢“小文”对我的技术指导(我的正则不懂,小文本我写的采集点击次数和评价等级的正则)

各位高手们,有没有一个好的办法,使用一个火车规则,就可以把本游戏站的数据全部采集下来,如有高见请回帖子!

另:

本人对火车很感兴趣,闲来没事,就写个规则,练练手,有人加我的qq,说要收火车规则,然后就给我一个笼统的描述,采那个站都不告诉我,就完事了。

声明:对于强大的火车,我只是感兴趣,不打算用此发财,如果有人需要可以免费写,但是不要像有些人加我qq之后,就命令我!

谢谢!

lookoo 发表于 2010-7-21 15:50:04

好东东啊。好东东啊。好东东啊。

专业收费采集 发表于 2010-7-21 21:58:05

dddddddddd{:4_180:}

cgx007 发表于 2010-7-22 00:20:06

很好的东西,顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶

amwfhv 发表于 2010-7-22 10:55:48

好帖正如美女是要顶弟的啊!

sqmfkj 发表于 2010-7-22 11:17:17

要顶要顶要顶要顶要顶要顶

ly20 发表于 2010-7-25 12:21:17

hao 东西,我要看看

hchc1900 发表于 2010-7-25 23:01:40

很好的东西,顶顶顶顶顶

iquan 发表于 2010-7-26 12:47:39

我靠 这个必须顶啊啊啊啊

iMyRice 发表于 2010-7-26 12:53:56

强烈顶    正需要呢
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 3839游戏采集最新版