火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4116|回复: 4

个别情况:获取不到地址

[复制链接]
发表于 2010-8-24 17:13:32 | 显示全部楼层 |阅读模式
为什么我采集http://news.cnmd.net/NewsList_20.aspx的时候,为什么总是获取不大正确的地址了?

<div class="news_list">到<div id="pageMenu_PageMenu">
很奇怪,不知道是不是bug?
发表于 2010-8-26 17:53:03 | 显示全部楼层
这个不是bug,可以在采集网址的时候使用手动填写链接网址规则进行采集。
 楼主| 发表于 2010-8-26 22:45:57 | 显示全部楼层
回复 2# lxy2010


为什么会出现这样的情况呢?请问能够解释一下吗?学习一下,谢谢
发表于 2010-8-27 09:56:59 | 显示全部楼层
你在浏览器里输入你想要采集的网址点击访问网页按钮,会得到你想要看到的信息。这个过程就是浏览器向服务器发送一个请求,服务器返回一个响应的过程。返回的数据以html代码形式呈现,信息用浏览器可以查看。在采集器里你截取html中相应的代码,会得到你想得到的结果。
针对你请求的这个网址,从返回的html代码可以看到,你截取代码的范围并没有错,为什么没有返回你想要得到的数据的原因是采集器找到的这个范围代码只有一个<span>·<a href="http://news.cnmd.net/NewsList_20.aspx" target="_blank">,一直往下循环,得到的链接都是一样的,所以采集器只会返回一个结果。紧接着这个链接后面的那个连接才是你想要的,因为这个链接在源代码里有空格且换行,所以采集器不认为他是一个链接。
  手动链接的方式可以抓取所有含有<a href=''>的链接,没有换行和空格的限制,所以用这种方式可以
 楼主| 发表于 2010-8-27 16:18:59 | 显示全部楼层
回复 4# lxy2010

明白了,谢谢。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 05:24

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表