列表中有内容页网址,分类网址和标签网址,如何提取内容页网址?
本帖最后由 vsgod 于 2013-3-13 14:28 编辑<div class="arcbox"><div class="listtitle"><a href="/hynews/57095.html" >2012年全国房地产开发投资统计分析</a></div><p>
2012年,全国房地产开发投资71804亿元,比上年实际增长14.9%,增速比1-11月份回落0.5个百分点,比
2011年回落11.9个百分点。其中,住宅投资49374亿元,增...</p><div class="listdec">标签:<a href="/hynews/search/fangdichan.html" class="blue">房地产</a>分类:<a href="/hynews/fangdichan.html" class="blue">房地产</a> 更新时间:2013-01-24 <a href="/hynews/57095.html" class="acheng">[阅读全文]</a> </div>
</div>
上面这种源码如何采集目标页地址?必须包含里填什么,不得包含里填写什么?
必须包含的内容是:<div class="arcbox"><div class="listtitle"><a href="/hynews/57095.html" >
不得包含的是:<div class="listdec">标签:<a href="/hynews/search/fangdichan.html" class="blue">房地产</a>分类:<a href="/hynews/fangdichan.html" class="blue">房地产</a> 更新时间:2013-01-24 <a href="/hynews/57095.html" class="acheng">[阅读全文]</a> </div>
原本想要一步到位,不设置不得包含的,可奇怪的是必须包含里不论我填写的是<div class="arcbox"><div class="listtitle"><a href="/hynews/(*).html" >,还是<div class="listtitle"><a href="/hynews/(*).html" > 都采集不到内容页。只有用/hynews/(*).html才能采集到内容页。这样出来的结果包含了分类,内容页和标签了,不能只采集到内容页。
这样一来,不得包含里就必须要填写什么了,/hynews/search/ 这个过滤掉标签,那个分类的链接怎么过滤呀?
<a href="/hynews/(*).html" class="acheng">这个源码也能提取到内容页,应该如何过滤?直接填写是不行的,
有没有更好的办法,可以直接采集到内容页,不用那么麻烦的。 用自定义连接采集<div class="listtitle"><a href="[参数]“ > 谢谢你的回复,有空试试
页:
[1]