天大地大 发表于 2009-5-29 14:35:46

【高难度的挑战】这个网真难采集!!!~~~

本帖最后由 天大地大 于 2009-5-29 14:45 编辑

目标网站:http://www.bangnitao.net/

采集目标:各类目下(例如:女装)的宝贝地址,以及宝贝链接跳转打开后的内容

难度所在:
1.无法获取各类目下的宝贝地址;
2.无法获取翻页地址;
3.上述两点,小菜我都用WSock Expert抓包分析所获数据了,之间有几段无规律可循,从而无法利用post方式解决;
4.退而求其次,发现即便千方百计采集到了各类目下的宝贝地址(为:http://s.click.alimama.com/a/********),仍面临一个采集难题,即5:
5.如采集这个地址:http://s.click.alimama.com/a/qvQrX+XJYcg=-12816987
最后才跳转到这个实际地址:http://item.taobao.com/auction/item_detail--.jhtml?taomi=8aR2LQR6GJA3c9siMH%2B%2FGnAQhIynEdNRT8UoKDmQZimu4vmxBlr94UxhI1X4kNQvV6Q7VqVX3ci%2BzR48tg%2FACai1tdmPFaSlUqvtENcY7YXH5nPJ%2F2BWRzTTf8rw3LKKuw%2FVLtGSNs1AhLkv34xHffZb3lcY99L0qkjHmI7wDH8TeEiPg7M%2B7gCpE%2BQqeBusXK3pZKM8TpHytQtRDo7QK91ke0KHIheirD%2BYQbHLJ%2F6QkGuOqfM4NdAAH5LavjggJ20t&ref=

如何从http://s.click.alimama.com/a/********采集到最终跳转后的那个实际地址或者内容?

此难点,小菜我之前在坛子里已发帖求教未果(见帖:http://bbs.locoy.com/spider-39630-1-1.html),顺此谢谢坛友“zhouchanglin ”的回帖。


端午佳节,各位车友快乐!不妨抽暇来挑战一下吧!(也许是小菜我太菜,大虾出手可能问题没说的这么难,还请多多指教包涵)

沦陷今生 发表于 2009-5-29 15:12:03

这个跳转的确很复杂,特别是2次跳转后得到的地址还是没有经过转码处理的,3次跳转后才有真实地址,整个地址的判断和处理很麻烦。
不过依然可以处理,有需要可以联系我们

等价交换 发表于 2009-5-29 15:17:04

看了这个站有所获,故回复下.
直接采 http://www.taobao.com

沦陷今生 发表于 2009-5-29 15:29:32

楼主并不想采集淘宝,是因为目标站的宝贝分类采集是楼主想要的。

zhouchanglin 发表于 2009-5-29 15:38:16

不会了,确实很 难{:3_148:}

天大地大 发表于 2009-5-29 16:58:57

楼主并不想采集淘宝,是因为目标站的宝贝分类采集是楼主想要的。
沦陷今生 发表于 2009-5-29 15:29 http://bbs.locoy.com/images/common/back.gif

于我心有戚戚焉~~~

天大地大 发表于 2009-5-29 16:59:32

不会了,确实很 难{:3_148:}
zhouchanglin 发表于 2009-5-29 15:38 http://bbs.locoy.com/images/common/back.gif

thanks all the same~~~

沦陷今生 发表于 2009-5-29 18:37:05

ali2ls ali2lsali2ls这个站点不错

天大地大 发表于 2009-5-29 20:53:24

ali2ls ali2lsali2ls这个站点不错
沦陷今生 发表于 2009-5-29 18:37 http://bbs.locoy.com/images/common/back.gif

大大不妨透露下解决之道呗,既然你面对如此好站有如此好心情ali67ls


对于js的n(≥1)次跳转页面采集,是否乃火车这柄利剑一直的心头之憾呢??

沦陷今生 发表于 2009-5-29 20:59:26

有需要可以联系我技术支持 QQ 839461016 聊
页: [1] 2
查看完整版本: 【高难度的挑战】这个网真难采集!!!~~~