|
在页面上采集网址时,这些网址都是转到另外一个网站的地址,格式都是前面一长串后面一截才是真实的要采集信息的页面地址,如果直接用采集到的地址的话采集不到所需要的信息,请问如何把提供需要信息的地址转换成实际地址。
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/232323
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/656356
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/6543553
.....
这是直接从单页面上采集到的地址格式,而真实的,可以提供所需要信息采集的是后面的http://www.YYY.com/232323...这个地址,我不会设置手动填写地址规则,请哪位高手指点一下,让我用火车头直接在http://www.YYY.com/232323这样的页面上采集信息,并且不再在http://www.YYY.com/232323这样的页面上进一步采集网址。
谢谢 |
|