h721695819 发表于 2016-6-15 19:18:48

98%使用过火车头采集器的人都没遇到过的情况!高手请进

最近想采集一个网站,采集到列表页的时候发现:所有列表页的源代码都是一样的!所有列表页的源代码都是一样的!
头一回遇到这种情况,请高手帮忙下,这样的采集规则怎么做???
这个是其中个一个列表页:http://www.gxtd.gov.cn/xinwenzhongxin/xzkx/?p=2
http://www.gxtd.gov.cn/xinwenzhongxin/xzkx/?p=3
http://www.gxtd.gov.cn/xinwenzhongxin/xzkx/?p=4
你会发现这几个列表页的源代码都是一样的!


望高手帮帮忙!

js2016 发表于 2016-6-22 14:08:22

对于这样内容变化,源码却不变化的页面,一般都是通过post请求来的。可以用Fiddle4来抓包

只需查看图中序号为4.5.6.7这样有代表POST的图标的请求项就可以了。
可以确定序号为6的请求项正是关键的。据此可以完成网址采集设置


页: [1]
查看完整版本: 98%使用过火车头采集器的人都没遇到过的情况!高手请进