火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 44505|回复: 177

3839游戏采集最新版

[复制链接]
发表于 2010-7-21 13:09:59 | 显示全部楼层 |阅读模式
本帖最后由 zcard 于 2010-7-23 16:15 编辑

目标站:3839小游戏网
采集规则:使用于任何一个3839 栏目
目标数据:365885条(截止时间:2010-07-23 16:16)

有图为证:



以前发过一个帖子,是关于3839的,好久没有看了,最近发现他改版,说实话版面没有以前漂亮!

今天把新版的采集新的说一下!

等我把他的默认的常规分页列表采集结束后,再去采集“最新游戏”栏目时发现,“最新游戏”栏目里面有很多的游戏在常规分页列表中没有,

常规分页列表里面可以采集到大约2万多条数据,在“最新游戏”列表中还可以采集到1万多条数据,

这两个地方,我一共采集了36308条数据,如下图:



采集的项目如下图:



然后又发现一个问题,那就是在采集到的游戏地址当中(也就是swf文件),有很多不是swf结尾的地址,而是“htm”或者“html”结尾的地址

打开这个html或者htm页面查看源码显示,swf文件地址,就在这个页面,这样子的数据大约有1500条

本着让火车给我们采集数据最完美的原则,就有了这篇文章;

总结:这个网站的swf文件大多是可以在播放页面一步就可以采集到,但是出现如上图的数据怎么办?(就是采集到的地址不是.swf结尾,而是.htm或者.html的怎么办?)

我采取了最笨的办法(也是最麻烦的办法):

1、按照常规采集所有数据(包括.htm或者.html结尾的地址),火车规则1
2、自己写代码把数据库中包括.htm或者.html结尾地址的数据筛选出来,并把本数据的显示页地址取出到文本文件
3、根据这些包括.htm或者.html结尾地址的编码再写一个火车规则2,把真实的.swf地址采集下来
4、把火车规则2采集到的数据,通过写程序去对照火车规则1采集到的数据,并把些包括.htm或者.html结尾地址的数据修改为.swf结尾的地址

下面的附件是我最终整理的数据库(内含36308条数据,截止日期2010-07-21 12:57),以及常规采集规则,即:火车规则1

这个可是小游戏站长的福音啊,有了本数据,你只需要针对自己的cms写发布规则就可以了(有需求可以找我哦,qq:326243419)

游客,如果您要查看本帖隐藏内容请回复

游客,如果您要查看本帖隐藏内容请回复


最后:

感谢“小文”对我的技术指导(我的正则不懂,小文本我写的采集点击次数和评价等级的正则)

各位高手们,有没有一个好的办法,使用一个火车规则,就可以把本游戏站的数据全部采集下来,如有高见请回帖子!

另:

本人对火车很感兴趣,闲来没事,就写个规则,练练手,有人加我的qq,说要收火车规则,然后就给我一个笼统的描述,采那个站都不告诉我,就完事了。

声明:对于强大的火车,我只是感兴趣,不打算用此发财,如果有人需要可以免费写,但是不要像有些人加我qq之后,就命令我!

谢谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2010-7-21 15:50:04 | 显示全部楼层
好东东啊。好东东啊。好东东啊。
发表于 2010-7-21 21:58:05 | 显示全部楼层
dddddddddd
发表于 2010-7-22 00:20:06 | 显示全部楼层
很好的东西,顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶顶
发表于 2010-7-22 10:55:48 | 显示全部楼层
好帖正如美女是要顶弟的啊!
发表于 2010-7-22 11:17:17 | 显示全部楼层
要顶要顶要顶要顶要顶要顶
发表于 2010-7-25 12:21:17 | 显示全部楼层
hao 东西,我要看看
发表于 2010-7-25 23:01:40 | 显示全部楼层
很好的东西,顶顶顶顶顶
发表于 2010-7-26 12:47:39 | 显示全部楼层
我靠 这个必须顶啊啊啊啊
发表于 2010-7-26 12:53:56 | 显示全部楼层
强烈顶    正需要呢
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-18 22:54

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表