|
大家好,火车头有学过一段时间了,绝大部份分页内容都可以采集,可是有一些却还是很头痛,例如掩藏分页的内容,不说了,我举例吧,因IE与firefox的爬虫不一样,火车头一般是采用的IE爬虫,在这儿发链接纯是进行交流,没有别的意思哦,况且这么大的站不需要这样来,请高手帮我手析一下,这样的分页如何采,分页区域IE源码是,
<!-- 翻页 -->
<div class="pageroll" style="text-align:center;">
<script>
createPageHTML(3, 0, "t20120815_2915930", "htm");
</script>
</div>
<!-- //翻页结束 -->
,
这种分页不是我们平常说的分页那么简单了吧,请高手帮忙,我试了很久也没试出来
举例地址是:
http://www.chinataiwan.org/xwzx/qwqs/201208/t20120815_2915930.htm
最好请高手能写出采集规则,然后发给我,谢谢! |
|