内容页分页采集之变态问题处理方案
这里只说变态的例如有10页以上
对方采用之显示10页的布局
这样只能用下一页识别
变态的是。下一页一直点就进入下一篇了。
所以提供下解决方法给大家
例 获取采集地址是/article/第一篇编码1_分页码.html
设置分页规则
/article/[参数]_[参数].html
分页网址里写
http://采集网址/article/[参数1]_[参数2].html
这样就只获取一个 参数1
如果不设置 后果就是一直采集分页。。循环致死。。 不错哈啊啊啊啊啊啊啊啊啊:lol 虽然现在没有碰到这样的问题,不过收藏一下。 谢谢,学习了!谢谢分享!
页:
[1]