挑战性任务!如何采集gap网站数据?
我想用火车头采集www.gap.com这个网站的数据,但就是采不到。忘大侠指点。主要有以下两个问题,不知该如何解决。
一、http://www.gap.com/browse/subDivision.do?cid=5646这个目录页,我采集左边分类链接的地址,但采集出来的地址带有不需要的字符,不是实际链接地址就不能继续到子页面采集,该怎么处理?
二、http://www.gap.com/browse/product.do?cid=8793&vid=1&pid=691540&scid=691540052 这个是单品页,我想采集单品的颜色、尺寸和图片信息,该怎么办那?
忘高手指点! 太难的任务可以联系官方定制。
页:
[1]