如何进行百度旅游列表网址的多页采集?
本帖最后由 liguangyun 于 2012-9-6 10:39 编辑百度旅游多页列表网址是
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3#1
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3#2
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3#3
……
可是实际输入网址时打
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3
http://lvyou.baidu.com/scene/allview/795ac511463263cf7ae3def3#1
打开的网页内容完全一样,只有在网页中点击打开才会刷新页面
这样采集器采集多少个列表,采到的内容也是第一页的
要如何才能采到多个列表页的内容? 实际要采集的列表分页是调用脚本的,实际采集地址 http://lvyou.baidu.com/scene/ajax/allview/795ac511463263cf7ae3def3?format=ajax&cid=0&pn=(*)其中pn表示列表页数,采集的内容地址通过手动填写链接地址参数正则匹配 该标签在分页中匹配这个复选框打钩 还有需要你写出分页模式
页:
[1]