GlobeTour 发表于 2011-3-10 12:50:20

采集时如何去掉网址里无用的参数

本帖最后由 GlobeTour 于 2011-3-10 21:13 编辑

列表页
http://zhidao.baidu.com/q?ct=17&tn=ikaslist&rn=10&word=%BA%A3%C9%A9&lm=0&pn=70
从上面采集到的URL是这样的样式
http://zhidao.baidu.com/question/124372621.html?an=0&si=2
怎样去掉后面的参数,不然怕今后采集好多重复的!
就是去掉这个?an=0&si=2

谢谢老大们!

-----------------------------
朋友帮我用自定义链接采出来了,但是测试时可以采集到正确链接,真正采集时却采不到任何链接,好奇怪!
---------------------------------
解决了,勾选禁用系统自动识别那个就可以了

solotraveler 发表于 2011-3-10 23:06:13

本帖最后由 solotraveler 于 2011-3-11 09:34 编辑

能解决问题就好了。..
页: [1]
查看完整版本: 采集时如何去掉网址里无用的参数