这样的文章地址该如何采集呢?
这样的文章地址该如何采集呢?列表页面很正常就采集下来了,
可是,他的网站文章页面的url每个url后面都跟了一个随机数值,
像这样
http://127.0.0.1/show.php?id=1&articleid=3&url=aHR0cDovL3BsdXMuaGF
其中的
url=aHR0cDovL3BsdXMuaGF
是随机数值
这个数值我试验了一下,好像随便填写一个就可以打开了,
即直接输入
http://127.0.0.1/show.php?id=1&articleid=3
http://127.0.0.1/show.php?id=1&articleid=3&url=random
..
都可以打开
但是由于他的随即数值是不断变化的,
往往还没有采集完一个列表,他的随机值就变化了,
这样就造成了重复采集,
请问该如何过滤掉
&url=aHR0cDovL3BsdXMuaGF
这个变量呢? 用(*)替代aHR0cDovL3BsdXMuaGF
页:
[1]