列表页,详细页URL地址格式一样,又需要2层深度采集,如何判断
列表到详细页,URL都是一样http://www.web-across.com/observe/cnsa9a000002et90.html谁帮我看看这个站改怎么抓,从列表到详细页,URL都是一样的,没法做判断~ 大概看了下,列表页,详细页都是不一样的,不知道楼主的是什么情况 本帖最后由 主策 于 2009-9-9 10:24 编辑
http://www.web-across.com/observe/cnsa9a000003y51s.html
http://www.web-across.com/observe/cnsa9a000003r0f6.html
http://www.web-across.com/observe/cnsa9a000003myr4.html
http://www.web-across.com/observe/cnsa9a000003zha5.html
http://www.web-across.com/observe/cnsa9a000003zhdq.html
http://www.web-across.com/observe/cnsa9a000003zhjm.html
上面3个是列表URL,下面3个是详细页URL,
我的意思不是完全一样,是基本格式一样,
再有就是每个分类下面都会有3个小的分类,URL格式也是和列表一样格式,然后每法判断,剔除~
页:
[1]