个别情况：获取不到地址

zaiwu119 · 发表于 2010-8-24 17:13:32

为什么我采集http://news.cnmd.net/NewsList_20.aspx的时候，为什么总是获取不大正确的地址了？

<div class="news_list">到<div id="pageMenu_PageMenu">
很奇怪，不知道是不是bug？

lxy2010 · 发表于 2010-8-26 17:53:03

这个不是bug，可以在采集网址的时候使用手动填写链接网址规则进行采集。

zaiwu119 · 发表于 2010-8-26 22:45:57

回复 2# lxy2010

为什么会出现这样的情况呢？请问能够解释一下吗？学习一下，谢谢

lxy2010 · 发表于 2010-8-27 09:56:59

你在浏览器里输入你想要采集的网址点击访问网页按钮，会得到你想要看到的信息。这个过程就是浏览器向服务器发送一个请求，服务器返回一个响应的过程。返回的数据以html代码形式呈现，信息用浏览器可以查看。在采集器里你截取html中相应的代码，会得到你想得到的结果。
针对你请求的这个网址，从返回的html代码可以看到，你截取代码的范围并没有错，为什么没有返回你想要得到的数据的原因是采集器找到的这个范围代码只有一个<span>·<a href="http://news.cnmd.net/NewsList_20.aspx" target="_blank">，一直往下循环，得到的链接都是一样的，所以采集器只会返回一个结果。紧接着这个链接后面的那个连接才是你想要的，因为这个链接在源代码里有空格且换行，所以采集器不认为他是一个链接。
手动链接的方式可以抓取所有含有<a href=''>的链接，没有换行和空格的限制，所以用这种方式可以

zaiwu119 · 发表于 2010-8-27 16:18:59

回复 4# lxy2010

明白了，谢谢。

帐号		自动登录	找回密码
密码			加入会员