wsapple2001 发表于 2011-10-23 19:58:53

求教如何采集真实url

我用火车头采集了一组url,不过这组url 是短地址,请教各位大大,如何采集这组短地址的真实url?
谢谢赐教!

unithree 发表于 2011-10-23 20:21:01

你在这组短地址的前面加上这个网站的域名试一试?
比如你采集到的短地址是:/abc/def.html该网站的域名是:http://www.xxx.com然后用正则匹配内容里把“/abc/def.html”改成成“参数”,在输出结果中写成“http://www.xxx.com参数1”估计就差不多了吧!

这也是我下午刚弄懂的!

wsapple2001 发表于 2011-10-23 20:41:48

unithree 发表于 2011-10-23 20:21 static/image/common/back.gif
你在这组短地址的前面加上这个网站的域名试一试?
比如你采集到的短地址是:该网站的域名是:然后用正则匹配 ...

谢谢楼上这么快回复,不过可能我没有表达清楚,我的意思是我采集到的列表是 类似http://bit.ly/uori

的地址,或者说是一组跳转的url,如何继续采集这组跳转url的真实url

比如
http://bit.ly/uori是我采集到的列表,它跳转到baidu.com

其实我真正要采集的是baidu.com,如何实现这个效果呢?:ali0ls

unithree 发表于 2011-10-23 20:49:38

wsapple2001 发表于 2011-10-23 20:41 static/image/common/back.gif
谢谢楼上这么快回复,不过可能我没有表达清楚,我的意思是我采集到的列表是 类似http://bit.ly/uori

的 ...

这个不好说,要把它源代码拿出来看才知道!
页: [1]
查看完整版本: 求教如何采集真实url