火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 5847|回复: 17

【高难度的挑战】这个网真难采集!!!~~~

[复制链接]
发表于 2009-5-29 14:35:46 | 显示全部楼层 |阅读模式
本帖最后由 天大地大 于 2009-5-29 14:45 编辑

目标网站:http://www.bangnitao.net/

采集目标:各类目下(例如:女装)的宝贝地址,以及宝贝链接跳转打开后的内容

难度所在:
1.无法获取各类目下的宝贝地址;
2.无法获取翻页地址;
3.上述两点,小菜我都用WSock Expert抓包分析所获数据了,之间有几段无规律可循,从而无法利用post方式解决;
4.退而求其次,发现即便千方百计采集到了各类目下的宝贝地址(为:http://s.click.alimama.com/a/********),仍面临一个采集难题,即5:
5.如采集这个地址:http://s.click.alimama.com/a/qvQrX+XJYcg=-12816987
最后才跳转到这个实际地址:http://item.taobao.com/auction/item_detail--.jhtml?taomi=8aR2LQR6GJA3c9siMH%2B%2FGnAQhIynEdNRT8UoKDmQZimu4vmxBlr94UxhI1X4kNQvV6Q7VqVX3ci%2BzR48tg%2FACai1tdmPFaSlUqvtENcY7YXH5nPJ%2F2BWRzTTf8rw3LKKuw%2FVLtGSNs1AhLkv34xHffZb3lcY99L0qkjHmI7wDH8TeEiPg7M%2B7gCpE%2BQqeBusXK3pZKM8TpHytQtRDo7QK91ke0KHIheirD%2BYQbHLJ%2F6QkGuOqfM4NdAAH5LavjggJ20t&ref=

如何从http://s.click.alimama.com/a/********采集到最终跳转后的那个实际地址或者内容?

此难点,小菜我之前在坛子里已发帖求教未果(见帖:http://bbs.locoy.com/spider-39630-1-1.html),顺此谢谢坛友“zhouchanglin ”的回帖。


端午佳节,各位车友快乐!不妨抽暇来挑战一下吧!(也许是小菜我太菜,大虾出手可能问题没说的这么难,还请多多指教包涵)
发表于 2009-5-29 15:12:03 | 显示全部楼层
这个跳转的确很复杂,特别是2次跳转后得到的地址还是没有经过转码处理的,3次跳转后才有真实地址,整个地址的判断和处理很麻烦。
不过依然可以处理,有需要可以联系我们
发表于 2009-5-29 15:17:04 | 显示全部楼层
看了这个站有所获,故回复下.
直接采 http://www.taobao.com
发表于 2009-5-29 15:29:32 | 显示全部楼层
楼主并不想采集淘宝,是因为目标站的宝贝分类采集是楼主想要的。
发表于 2009-5-29 15:38:16 | 显示全部楼层
不会了,确实很 难
 楼主| 发表于 2009-5-29 16:58:57 | 显示全部楼层
楼主并不想采集淘宝,是因为目标站的宝贝分类采集是楼主想要的。
沦陷今生 发表于 2009-5-29 15:29


于我心有戚戚焉~~~
 楼主| 发表于 2009-5-29 16:59:32 | 显示全部楼层
不会了,确实很 难
zhouchanglin 发表于 2009-5-29 15:38


thanks all the same~~~
发表于 2009-5-29 18:37:05 | 显示全部楼层
这个站点不错
 楼主| 发表于 2009-5-29 20:53:24 | 显示全部楼层
这个站点不错
沦陷今生 发表于 2009-5-29 18:37


大大不妨透露下解决之道呗,既然你面对如此好站有如此好心情


对于js的n(≥1)次跳转页面采集,是否乃火车这柄利剑一直的心头之憾呢??
发表于 2009-5-29 20:59:26 | 显示全部楼层
有需要可以联系我技术支持 QQ 839461016 聊
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-15 15:28

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表