火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 19618|回复: 13

【东哥福利】火车采集器V9表格类型采集规则分享

[复制链接]
发表于 2017-8-11 08:30:55 | 显示全部楼层 |阅读模式
【往期福利】火车采集器
【东哥福利】火车采集器版本选择攻略
【东哥福利-新手必看】最新最全火车采集器V9版学习资料

【东哥福利】火车采集器V9网易社会新闻采集规则分享
【东哥福利】火车采集器V9规则58同城租房信息采集分享
【东哥福利】火车采集器V9 unicode汉字编码转换案例规则分享
【东哥福利】火车采集器V9澎湃新闻网站信息采集规则分享
火车浏览器
【东哥福利】火车浏览器采集百度搜索相关词及下拉词脚本
【东哥福利】火车浏览器管理dede后台页面自动更新脚本分享
【东哥福利】火车浏览器阿里巴巴商家采集脚本分享
【东哥福利】火车浏览器百度地图商家信息采集详细讲解
-----------------------------------------------------------------------------
东哥微信号tony_lsd,添加请注明:东哥福利
------------------------------------------------------------------------------

【东哥福利】火车采集器V9表格类型采集规则分享


【案例讲解】
今天给大家分享一个表格类型的数据采集案例,很多人在遇到表格性的数据,不知道如何写规则,其实原理都一样,只要能找到符合火车采集器的规则就能采集,找到规则再加循环就能采集表格类型的数据了。今天以国家环境保护部的城市空气测量数据为例。网址:http://datacenter.mep.gov.cn/ind ... 2345678910123456789,打开后可以看到如下图:



我们要采集表格中的信息,页面显示总共83447 条信息,2782页。
第一步:分页网址采集
共2782页,我们需要获取到每个页面的网址,通过点击下方分页,发现网址并无变化,我们打开抓包软件Fiddler进行抓包看看,如下图:



通过抓包发现,抓出来的网址是:http://datacenter.mep.gov.cn:8099/ths-report/report!list.action 但类型是POST,也就是直接访问这个址是看不到数据的,这里需要通过POST方式才能获取到数据。我们在Cookie中找到一行参数,上图选中的蓝色部分,里面还有pageNo=2字样,以东哥的经验,也许这不需要使用火车头的POST功能,直接拼接网址通过GET方式就有可能获取到数据。我们来试试,将抓取的到网址“http://datacenter.mep.gov.cn:8099/ths-report/report!list.action”和cookie中的参数“page.pageNo=2&page.orderBy=&page.order=&orderby=&ordertype=&xmlname=1462415540192”拼接到一起组成“http://datacenter.mep.gov.cn:809 ... lname=1462415540192”中间以“?”连接,然后用这个新的网址去浏览器打开,很惊喜,可以打开可以看到数据,如下图:



这样就简单了,直接通过pageNo=2的参数来生成列表网址:http://datacenter.mep.gov.cn:809 ... action?page.pageNo=[地址参数]&page.orderBy=&page.order=&orderby=&ordertype=&xmlname=1462415540192,参照下图:


因为我需要获取的内容就在列表页中,所以需要设置起始网址就是内容页网址,参照下图,直接点“点击设置”即可



第二步:表格内容采集

通过查询网页源码,可以看到页面代码如下图:

我们需要找到一个能够匹配所有表格内容并且不能包含第一行表头内容,看起来,似乎找不到规则,仔细查看发现“<td rowid="”符合要求,通过查找,正好能匹配所有内容,符合循环规则要求。参照下图:


但这只是完成了第一步,我们需要找一个代替规则能够去满足采集表格中不同列的数据,发“colid="1"”这个可以,里面的参数1-10正好可以用来区分,参照下图:


我们的规则可以这样写了,开头字符串:<td rowid="(*)colid="1"(*)">  结尾字符串:</td>,中间的(*)是通配符,表示任意字符,我们只要找到关键字符串即可,其他用(*)代替,另外我们要将循环匹配√上,参照下图:


上图是城市名称信息的采集规则,那其他信息依此类推,我们直接复制城市的规则,然后粘贴,然后将标签名改成对应的名称,其后规则开头字符串:<td rowid="(*)colid="1"(*)"> 中的olid="1"中的数字改成对应的数字即可,如1对应的是城市,2对应的是测值范围,3对应的是平均值……,参照下图:



这样内容的采集规则就设置好了,还差一步,上面我们设置了循环,然后需要设置循环采集的数据的形式,我们设置为“添加为新记录”,这样采集出来数据就和网页中的表格一样会是一行一条记录。如下图:



我们测试运行,如下图:


这样就可以了,最后来一个采集动态图



小伙伴学会了吗,起来下载规则来试一试吧,网站中还有很多其他数据,可以亲自去试一试。


本规则采集国家环境部网站各城市空气测量数据为例,本规则免费版用户可使用

本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。


商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060





欢迎关注官方微信公众号,及时了解最新信息


联系我们
客服QQ:800019423
客服电话:400-8757-060



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2017-8-11 09:04:15 | 显示全部楼层
找规则是很重要的一块
发表于 2017-8-11 10:05:07 | 显示全部楼层
找到贵州采集变得很简单,找不到规则就需要一个个采集!!
 楼主| 发表于 2017-8-11 14:18:34 | 显示全部楼层
minghct 发表于 2017-8-11 09:04
找规则是很重要的一块

是的 这个是需要多做多看 慢慢有经验了就会怎么找了 首先要理解火车采集器的原理,如果不懂原理,就无法找规则,知道原理就好找。
发表于 2017-8-15 08:31:32 | 显示全部楼层
新人学习~
谢谢老师~
发表于 2017-8-22 10:44:36 | 显示全部楼层

新人学习~
谢谢老师~
发表于 2017-9-1 04:11:38 | 显示全部楼层
火车采集器V9表格类型采集规则分享
发表于 2017-9-9 16:01:05 | 显示全部楼层
谢谢,,新手试一试看看!!
发表于 2017-9-22 03:14:55 | 显示全部楼层
好的思路从学习开始,学习学习
发表于 2017-9-26 14:24:37 | 显示全部楼层
找规则是很重要的一块
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-12-29 03:59

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表