lqyromeo 发表于 2012-8-16 17:13:24

采集高难度分页内容-请问如何采集掩藏分页的多页内容

大家好,火车头有学过一段时间了,绝大部份分页内容都可以采集,可是有一些却还是很头痛,例如掩藏分页的内容,不说了,我举例吧,因IE与firefox的爬虫不一样,火车头一般是采用的IE爬虫,在这儿发链接纯是进行交流,没有别的意思哦,况且这么大的站不需要这样来,请高手帮我手析一下,这样的分页如何采,分页区域IE源码是,

<!-- 翻页 -->
<div class="pageroll" style="text-align:center;">
<script>
createPageHTML(3, 0, "t20120815_2915930", "htm");       
</script>
</div>
<!-- //翻页结束 -->


这种分页不是我们平常说的分页那么简单了吧,请高手帮忙,我试了很久也没试出来
举例地址是:

http://www.chinataiwan.org/xwzx/qwqs/201208/t20120815_2915930.htm

最好请高手能写出采集规则,然后发给我,谢谢!

lqyromeo 发表于 2012-8-16 17:39:41

:Q这好的东西没人顶,:(

303718 发表于 2012-8-16 23:47:46

这种要通过插件解决了

流浪侠女 发表于 2012-8-17 10:14:28

这个需要插件 才能解决的

lqyromeo 发表于 2012-8-18 14:34:58

能指出,在哪儿弄插件吗,我急寻找中。:Q

walker1218 发表于 2012-8-19 19:56:02

取这个参数:t20120815_2915930
页: [1]
查看完整版本: 采集高难度分页内容-请问如何采集掩藏分页的多页内容