a5921 发表于 2008-10-25 10:02:47

内容页分页采集之变态问题处理方案

这里只说变态的

例如有10页以上

对方采用之显示10页的布局

这样只能用下一页识别

变态的是。下一页一直点就进入下一篇了。



所以提供下解决方法给大家

例 获取采集地址是/article/第一篇编码1_分页码.html

设置分页规则

/article/[参数]_[参数].html

分页网址里写

http://采集网址/article/[参数1]_[参数2].html

这样就只获取一个    参数1

如果不设置 后果就是一直采集分页。。循环致死。。

冲锋火车头 发表于 2008-10-25 10:12:19

不错哈啊啊啊啊啊啊啊啊啊:lol

chenfy 发表于 2008-10-25 11:37:06

虽然现在没有碰到这样的问题,不过收藏一下。

李巨华 发表于 2008-11-8 11:26:15

谢谢,学习了!谢谢分享!
页: [1]
查看完整版本: 内容页分页采集之变态问题处理方案