ibhicn 发表于 2010-7-21 14:17:45

老问题,一直没人解决,采集跳转网址怎么采呢?

本帖最后由 ibhicn 于 2010-7-21 14:25 编辑

采集跳转网址怎么采呢
采集的地址是跳转的,我现在只需要采集到跳转的地址就可以了,用火车采集器自带的获取源代码工具可以查看到返回头信息有跳转的地址,这个怎么提取出来呢?恳请高人指点

在列表页采集内容页的链接,但链接跳转后才是真实的地址!
我只要这个真实地址,不需要任何内容页数据。
火车头默认采的是跳转前的地址,谁知道怎么采真实地址~~~


例:内容页(这里会循环采集)<a href="/viewpage.php?id=ql1x02w1xgw5eeuhcegjx0ty5bvq5twjcnuaebbclnuj7f8hjuu170onc1u1amxa5kvlsb8hm1qgfsvxrp07jmbvja&ud=-9173729762978597791&tm=20100721"

<a href="/viewpage.php?id=i41m83c1mkcddbwtdkjy8gqy26iy5c4jtobvd22t7o6kj83mh4i755cvt2igfz5j1w3vjy3i5k2k145hu52pmgaha42vj4ahus36cg66778ec4s71z37xyp7a2&ud=-7107867379211657585&tm=20100721"

<a href="/viewpage.php?id=ik1m83c1mk4cddbwtdkjd2svtkbsd22ttikw725j1o6ugz3mhb6jd06mhkbcd2gcts8wjz5jtb80725j126wmz5j1w23v4x61s2cj4x6u52pj4aiuz8pjyaij72gj4e61526cy36u52gce&ud=3319090264460355142&tm=20100721"

<a href="/viewpage.php?id=pwtg76otgnoeeqarenjg7wf9i0vpi2o5rupweeqj3mpne0vrjuv1wf6er1pji093rwvauekj3tv8e0mor87awfojiupjeigvs80k5cdpj20k5ikvse0dg8&ud=3486461081386706341&tm=20100721"
当然火车头可以采集跳转页的内容,但是我要采集的是真实地址:要采集 “http://www.suoyuan.com/viewpage.php?id=yokrgmskr4sxxcuewx4h8b5r004h0oje6cpyxajj0ac66ajj0ape03jrqcphx9siq0c7toshqxcy8om1l9b8i0b&ud=-6432593876689183711&tm=20100721”的真实地址
即:http://www.hhjs.gov.cn/zbtb/zbgg_info.asp?newsid=2513
注:这个http://www.hhjs.gov.cn/zbtb/zbgg_info.asp?newsid=2513真实地址可以用火车头带的源代码查看工具获得(在返回头信息和源码里面都可以看到这个地址)。

wxl08 发表于 2010-7-21 17:55:36

可以将网址的采集深度设为2.。。。。

ibhicn 发表于 2010-7-21 18:15:33

回复 可以将网址的采集深度设为2.。。。。

还是不行的。

wxl08 发表于 2010-7-22 09:14:42

可以的。。。。
页: [1]
查看完整版本: 老问题,一直没人解决,采集跳转网址怎么采呢?