商品页采集出错,高手来指点一下.
采集网址第一页是:http://www.aidelo.com/category.php?id=35点下一页成了这样:http://www.aidelo.com/category-35-b0-min0-max0-attr-2-goods_id-DESC.html
再点下一页是这样:http://www.aidelo.com/category-35-b0-min0-max0-attr-3-goods_id-DESC.html
第四页是这样: :http://www.aidelo.com/category-35-b0-min0-max0-attr-4-goods_id-DESC.html
以上网址可以看出很明显看出第一页的:(http://www.aidelo.com/category.php?id=35)即就是:(http://www.aidelo.com/category-35-b0-min0-max0-attr-1-goods_id-DESC.html)
那么在这四而中我的规则是这样的:(图)
在这四个网址中,我采集的是第个网址下的所有商品
商品页的网址是:http://www.aidelo.com/goods-522.html
第个页面中都很很多商品,所以很多个http://www.aidelo.com/goods-XXXXXXXX.html
所以内容页面必须包含/goods-(*).html (如图)
都填好了,那我测试网址采集,在这四个网址中下所有的商品网址都采到了(如图)
但是到真正采集的时候,只在第一页可以采集,或者要一页页才可以采集,这是为什么啊?(图)
页:
[1]