dk2dk2 发表于 2011-3-17 05:35:54

问一个非常简单的问题,真的非常简单。。

在页面上采集网址时,这些网址都是转到另外一个网站的地址,格式都是前面一长串后面一截才是真实的要采集信息的页面地址,如果直接用采集到的地址的话采集不到所需要的信息,请问如何把提供需要信息的地址转换成实际地址。
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/232323
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/656356
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/6543553
.....
这是直接从单页面上采集到的地址格式,而真实的,可以提供所需要信息采集的是后面的http://www.YYY.com/232323...这个地址,我不会设置手动填写地址规则,请哪位高手指点一下,让我用火车头直接在http://www.YYY.com/232323这样的页面上采集信息,并且不再在http://www.YYY.com/232323这样的页面上进一步采集网址。
谢谢

303718 发表于 2011-3-17 09:58:00

你好。用自定义链接试试

流云飞舞 发表于 2011-3-17 10:30:59

自定义链接直接替换掉就可以了吧!

dk2dk2 发表于 2011-3-18 00:01:23

楼上二位高手能说详细点吗?我用的是2010SP2免费版,我没有什么HTML语言基础,请告诉我如何替换,只在第一步采集网址规则那里看到一个默认的“从页面自动分析得到地址链接”和一个“手动填写地址链接规则”

dk2dk2 发表于 2011-3-18 06:40:08

自定义链接怎么用啊,能说详细点吗?

四川开来 发表于 2011-3-18 10:15:26

手动添加地址规则!
http://out.XXXX.com/go-to?external_url=http://www.YYY.com/[参数]
实际连接:http://www.YYY.com/[参数]

应该是这样吧!

ps94506 发表于 2011-3-18 11:45:30

先采集网址,再将网址保存出来,使用UltraEdit-32之类的软件替换就可以了

但多了一个人工的步骤

jackwebsite 发表于 2011-3-18 21:07:17

加我QQ,免费教你
页: [1]
查看完整版本: 问一个非常简单的问题,真的非常简单。。