cnncnn 发表于 2008-12-16 21:46:08

二级网址得不到,请帮忙

本帖最后由 cnncnn 于 2008-12-16 21:53 编辑

刚用火车测试一下amazon的列表,发现不能完全采集二级网址,首页(http://www.amazon.com/s/ref=nb_s ... s%3Delectronics&;field-keywords=digital+camera&x=0&y=0)可以得到二级网址,后面的页面要么得不到二级网址,要么采集到的二级网址与首页的重复。
也就是说,即使采100页的一级网址,得到的二级网址始终是一级网址首页采集到的网址。(尽管总数量是对的,但全是重复的)

如,采集地址:http://www.amazon.com/s/qid=1229431565/ref=sr_pg_(*)?ie=UTF8&rs=172282&keywords=digital%20camera&rh=n%3A172282%2Ck%3Adigital%20camera&page=(*)
通配符数字变化范围从:1到100

文章内容页面的地址必须包含:/dp/

采集到的二级网址总数是2400,但实际只有24个,其余全是重复的。

请火车高手帮忙解决,先谢谢了。

haozhang 发表于 2009-1-5 13:14:00

二级页面的问题看来很多啊
页: [1]
查看完整版本: 二级网址得不到,请帮忙