挑战性任务!如何采集gap网站数据?
刚开始使用火车头,想采集www.gap.com这个网站的内容,但碰到两个问题,希望大侠指点。一、http://www.gap.com/browse/subDivision.do?cid=5646我采集这页左边的链接栏里的地址,但采集出来的地址带有实际地址中没有的字符,也就是说通过采集的地址无法进入子页,如何清除不需要的字符?
二、http://www.gap.com/browse/product.do?cid=8793&vid=1&pid=691540&scid=691540052 这个是单品页,如何采集这个单品页中的颜色、尺寸和对应的图片?
希望大侠告知~ 这个也没什么难的,可惜我放假在老家,6号才能回去。要不我可以帮你。 还有谁能帮帮忙啊!~ 高手们,不要吝惜嘛。 你要采集的这个网站速度也太慢了
页:
[1]