采集分页的问题,这种分页模式应该难倒不少高手
这是深圳新闻的,例子如下,
http://news.sznews.com/content/2009-11/27/content_4213912.htm
这篇文章共有分页17页,
但是它在首页只有5页的链接,
当你点击到第2页时,才出现第6页的链接,
当你点击到第3页时,才出现第7页的链接,
当你点击到第4页时,才出现第8页的链接,
当你点击到第5页时,才出现第9页的链接,
这篇文章表面看来,分页好写规则,
但是难就难在你永远不知道它到底有多少页,
采集器虽然能够探测到它的链接方式,
但是无法把它采集完整 用 上下页 功能就能采集到
页:
[1]