求杭州网新闻的采集规则
1、有些有分页,有些没分页要采到一个页面。2、新闻内页要纯文字不要广告和推荐内容等链接! 专业采集:314922759 火车头采集规则发布模块定制联系QQ:315103700 采集规则制作7+5+3+1+6+7+82 采集规则,价格公道。Q1650345008.线上交易。 网址采集测试结果
内容采集测试结果
求我的第一节火车
采网址
以 城市新闻 版块为例
单条网址 http://hznews.hangzhou.com.cn/chengshi/index.htm
批量多页 http://hznews.hangzhou.com.cn/chengshi/index_(*).htm
首项2 项数9 公差1
多级网址采集
从页面自动分析得到地址链接
从该选定区域提取网址
从
<table width="620" border="0" align="center" cellpadding="0" cellspacing="0">
到
</table>
结果过滤
不得包含 index_(*).htm|index.htm
采集内容规则
标题
前后截取
开始字符串
<td class="hzwRP_lname05" align="center" height="45">
结束字符串
</td>
内容
前后截取
开始字符串
<td class="hzwRP_lname06" align="left">
结束字符串
<!--/enpcontent--></td>
复选框选上
该标签循环匹配
该标签在分页中匹配
内容替换
<table style="BORDER-RIGHT: #adc1f5 1px solid; BORDER-TOP: #adc1f5 1px solid; BORDER-LEFT: #adc1f5 1px solid; WIDTH: 371px; BORDER-BOTTOM: #adc1f5 1px solid; HEIGHT: 190px" cellspacing="0" bordercolordark="#adc1f5" cellpadding="0" align="right" bordercolorlight="#adc1f5" border="1">(*)</table>
替换为
空
html标签排除。<p><img><strong>
采集内容中分页获取规则
分页
全部列出模式
从
<div width="100%" id="displaypagenum" class="black2">
到
</div>
页:
[1]