【Close】网站点击下一页,网址不变?火车头如何抓取?
本帖最后由 seabirds 于 2013-6-13 12:10 编辑请教论坛高手,我现在遇到的问题是:
网站点击下一页,网址不变?火车头要如何抓取?
网址如下:
http://www.yihaodian.com/ctg/s2/c23586-%E6%89%8B%E6%9C%BA/b/a-s1-v0-p1-price-d0-f06-m1-rt0-pid-k/
点击下一页,网址不变。以前会处理网址变化的(自动加1),现在网址不变了。要如何才能用火车头将如上网址的手机分类的所有商品信息抓下来啊?
谢谢各位大侠 用抓包工具抓包分析真实地址后采集 对于点击分页网址不变的,可能就是post请求的,本地安装一个fiddler抓包工具抓取看看,参考http://bbs.locoy.com/spider-78318-1-1.html里post采集教程 如果点击分页不变,有可能是post分页采集的,要具体抓包看看的
陈丹丹 发表于 2013-6-9 10:53 static/image/common/back.gif
如果点击分页不变,有可能是post分页采集的,要具体抓包看看的
是的,是POST方式。我现在知道真实地址了
http://www.yihaodian.com/ctg/s2/c23586-%E6%89%8B%E6%9C%BA/b/a-s1-v0-p*-price-d0-f06-m1-rt0-pid-k/
不过,有一个新问题。这个网页是分段加载的,第一次加载36个产品,当鼠标滑下来时,再加载36个产品。我现在的代码只能抓取36个产品。
请教下,怎样才能抓取72个产品呢?我查了网页源码好像都一样(36个产品和72个产品的时候)。
谢谢 seabirds 发表于 2013-6-12 16:43 static/image/common/back.gif
是的,是POST方式。我现在知道真实地址了
http://www.yihaodian.com/ctg/s2/c23586-%E6%89%8B%E6%9C%BA/ ...
两页不就是72个产品啦? lmj243 发表于 2013-6-12 21:04 static/image/common/back.gif
两页不就是72个产品啦?
不是,一号店是一个链接地址加载36个产品,然后,当鼠标移到最下面时,再加载另外36个产品。
用Fiddler测试,发现连接地址是:
前36个产品
http://www.yihaodian.com/ctg/searchPage/c23586-0/b/a-s1-v0-p5-price-d0-f06-m1-rt0-pid-k/1/?callback=jsonp1371087424520
之后加载的另外36个产品:
http://www.yihaodian.com/ctg/searchPage/c23586-0/b/a-s1-v0-p5-price-d0-f06-m1-rt0-pid-k/1/?callback=jsonp1371087424530&isGetMoreProducts=1&moreProductsDefaultTemplate=0
关键是JSONp*****,红色字体部分,每次都是随机变动的,看了论坛相关资料,说是要用POST方式,可是我还是抓不了。。 seabirds 发表于 2013-6-13 09:52 static/image/common/back.gif
不是,一号店是一个链接地址加载36个产品,然后,当鼠标移到最下面时,再加载另外36个产品。
用Fiddler测 ...
搞定了!原来那一串13位的数字是时间戳。。。
感谢这个帖子啊:http://bbs.locoy.com/spider-132672-1-1.html
不用POST抓取,直接GET就行,每次修改时间戳。
此贴CLOSE。
感谢论坛里面的各位大侠! seabirds 发表于 2013-6-13 12:09 static/image/common/back.gif
搞定了!原来那一串13位的数字是时间戳。。。
感谢这个帖子啊:http://bbs.locoy.com/spider-132672-1 ...
哥们 太好厉害了 我这也有一个瀑布流的网站需要采集一点数据你可以帮我看看嘛
页:
[1]