二级网址得不到,请帮忙
本帖最后由 cnncnn 于 2008-12-16 21:53 编辑刚用火车测试一下amazon的列表,发现不能完全采集二级网址,首页(http://www.amazon.com/s/ref=nb_s ... s%3Delectronics&;field-keywords=digital+camera&x=0&y=0)可以得到二级网址,后面的页面要么得不到二级网址,要么采集到的二级网址与首页的重复。
也就是说,即使采100页的一级网址,得到的二级网址始终是一级网址首页采集到的网址。(尽管总数量是对的,但全是重复的)
如,采集地址:http://www.amazon.com/s/qid=1229431565/ref=sr_pg_(*)?ie=UTF8&rs=172282&keywords=digital%20camera&rh=n%3A172282%2Ck%3Adigital%20camera&page=(*)
通配符数字变化范围从:1到100
文章内容页面的地址必须包含:/dp/
采集到的二级网址总数是2400,但实际只有24个,其余全是重复的。
请火车高手帮忙解决,先谢谢了。 二级页面的问题看来很多啊
页:
[1]