521268847 发表于 2012-11-28 08:53:58

高难度抓取,麻烦请各位围观,标题一句两句说不清

现在已抓取 http://127.0.0.1/list.html 的5000条数据

但是http://127.0.0.1/list.html 每一条数据里面 都还 包含着 一个连接页面

那个连接页面地址为http://127.0.0.1/list.html/111111.html$cliknxxxxxxxxxxxxxx

现在想抓 http://127.0.0.1/list.html/111111.html&cliknxxxxxxxxxxxxxx ,应该从何下手呢?

麻烦知情人士帮下忙,谢谢了

塞北的雪 发表于 2012-11-28 09:00:08

多级网址那里可以设置的

521268847 发表于 2012-11-28 09:02:35

塞北的雪 发表于 2012-11-28 09:00 static/image/common/back.gif
多级网址那里可以设置的

求方法ali24lsali22ls

塞北的雪 发表于 2012-11-28 09:07:49

第一步页面里,中间不是有个多级网址获取么,在那里填内容就好了

521268847 发表于 2012-11-28 09:29:50

塞北的雪 发表于 2012-11-28 09:07 static/image/common/back.gif
第一步页面里,中间不是有个多级网址获取么,在那里填内容就好了

是呀。内容应该怎么填呢?选项很多哦

zml123 发表于 2012-11-28 10:06:47

参考http://bbs.locoy.com/spider-131627-1-1.html这个帖子

521268847 发表于 2012-11-28 10:57:31

zml123 发表于 2012-11-28 10:06 static/image/common/back.gif
参考http://bbs.locoy.com/spider-131627-1-1.html这个帖子

不行呢,采不到,我知道规则

它是这样的,点击 查看签收情况, 就会给 当前的地址加上一个 xxxxxxx 字符串,就是一个新的页面,这样的用什么规则采集呢?给当前地址加上的字符串,和其他页面地址的字符串都是 相同的

yzllh 发表于 2012-11-29 05:09:13

网址有个不包含功能 可以在那下功夫
页: [1]
查看完整版本: 高难度抓取,麻烦请各位围观,标题一句两句说不清