我想采新浪新闻,中间有对我来说很大的麻烦,高手给点指点咯!
页面来源:http://news.sina.com.cn/hotnews/采集效果页:http://news.sina.com.cn/w/2007-12-19/150814557731.shtml
这个页面里的基本上是以
<!-- google_ad_section_*** -->
开始和结束的,当然也有中文的
<!--正文内容开始和结束-->
还有的页面有分页,如果我想采分页,那么就不能把上面两个采进内容,也就是说只能采
分页代码之前的<span id="_function_code_page">
分页我是这样弄的
从<span id=_function_code_page>到<!--page_info=(*)--></p>
分页连接地址样式
<a style="FONT-SIZE: 14px" href="[参数]">[下一页]</a></p></span>
分页网址[参数1]
这样的话我采出来了,但是这里就有个问题了,在采集原页里面有的不是以
<span id="_function_code_page">结束的也没有分页,在内容最后只有一个<p />抓内容的话唯一的只有
<!-- google_ad_section_end-->
或者<!--正文内容结束-->
采集效果页:http://news.sina.com.cn/c/2007-12-19/140914557523.shtml
面对这种情况我应该怎么排除这个页面能不能做个表达示?跟flash一样,ifelse ? 求助啊:Q :Q 正文内容采集 从 <!-- google_ad_section_start --> 到<!-- google_ad_section_end -->
过滤 <span(*)</span>
过滤 <div>等标签。
分页规则 <span id="_function_code_page"> 到 </span> 对于页面内容有分页就采集,没有就不采集。如果一个规则有就采集,没有就出错的话,肯定不行的。:lol :lol 如果从<!-- google_ad_section_start --> 到<!-- google_ad_section_end -->
<span id="_function_code_page">不是被包括到<!-- google_ad_section_end -->里面了么?这样的话,采集分页不是无效么? 分页和采集内容有什么关系啊,他们是两码事。
这个就像你采集标题和采集内容一样,不打嘎的。采分页是采分页,采内容是采内容。分页有就采,没有就不采。仅此而已。 呵呵,谢谢咯,一开始我把<span id="_function_code_page">包在<!-- google_ad_section_end -->里面,用我设置的分页一直没办法采到。。所以我以为是这个问明,,现在没问题了,只是有个别的页面连标题都采不到,正在找原因。。。
对了,你对登陆模块有研究吗?我刚刚发了一个ss5.5.5的登陆模块,一直不成功,能一起研究一下吗???
帖子地址是http://bbs.locoy.com/spider-21804-1-1.html
谢谢咯:lol 只会采集,不会上传。登录不熟悉。:lol :lol :lol
页:
[1]