hailiyou 发表于 2010-1-4 11:43:07

挑战性任务!如何采集gap网站数据?

刚开始使用火车头,想采集www.gap.com这个网站的内容,但碰到两个问题,希望大侠指点。
一、http://www.gap.com/browse/subDivision.do?cid=5646我采集这页左边的链接栏里的地址,但采集出来的地址带有实际地址中没有的字符,也就是说通过采集的地址无法进入子页,如何清除不需要的字符?
二、http://www.gap.com/browse/product.do?cid=8793&vid=1&pid=691540&scid=691540052   这个是单品页,如何采集这个单品页中的颜色、尺寸和对应的图片?
希望大侠告知~

mdytds 发表于 2010-1-4 11:52:56

这个也没什么难的,可惜我放假在老家,6号才能回去。要不我可以帮你。

hailiyou 发表于 2010-1-4 12:18:08

还有谁能帮帮忙啊!~

hailiyou 发表于 2010-1-4 13:47:35

高手们,不要吝惜嘛。

inglove 发表于 2010-1-24 20:55:41

你要采集的这个网站速度也太慢了
页: [1]
查看完整版本: 挑战性任务!如何采集gap网站数据?