kv878 发表于 2011-6-5 12:41:26

一个采集地址的问题请教大家

我采集的网站页面地址是:http://***.com/list.aspx?lxt=&page=(*)
分页里要采集的文章地址是:http://***.com/detail.aspx?id=123456789&cd=0&lxt=fd5555554&vs=0&bid=551

问题是这样的,这网站的文章地址两种方法都能访问同一个页面:
http://***.com/detail.aspx?id=123456789
http://***.com/detail.aspx?id=123456789&cd=0&lxt=fd5555554&vs=0&bid=551                                                                              
就是说&cd=0&lxt=fd5555554&vs=0&bid=551 在段里面的fd555555是随机的,还会随时变的,就是说前5分钟采集时是fd5555555,但5分钟再采集时又变成fd6666666了导致采集时,采集器都是会采到相同的文章.

想解决办法就是采集文章地址时,只需采集http://***.com/detail.aspx?id=123456789 这样的地址就行了,如何把后面这段"&cd=0&lxt=fd5555554&vs=0&bid=551 "去掉???谢谢大家

272070210 发表于 2011-6-9 17:12:27

用自定义链接就行了。
页: [1]
查看完整版本: 一个采集地址的问题请教大家