wartxt 发表于 2014-1-21 12:11:38

求杭州网新闻的采集规则

1、有些有分页,有些没分页要采到一个页面。
2、新闻内页要纯文字不要广告和推荐内容等链接!

地狱龙腾 发表于 2014-1-21 15:00:25

专业采集:314922759

303718 发表于 2014-1-21 15:53:34

火车头采集规则发布模块定制联系QQ:315103700

029isp 发表于 2014-2-9 11:00:35

采集规则制作7+5+3+1+6+7+82

南宫韩燕 发表于 2014-4-19 11:39:11

采集规则,价格公道。Q1650345008.线上交易。

milklluu 发表于 2014-5-9 14:00:03

网址采集测试结果

内容采集测试结果




求我的第一节火车

采网址
以 城市新闻 版块为例

单条网址 http://hznews.hangzhou.com.cn/chengshi/index.htm
批量多页 http://hznews.hangzhou.com.cn/chengshi/index_(*).htm
首项2 项数9 公差1

多级网址采集
从页面自动分析得到地址链接
从该选定区域提取网址

<table width="620" border="0" align="center" cellpadding="0" cellspacing="0">

</table>
结果过滤
不得包含 index_(*).htm|index.htm


采集内容规则

标题
前后截取
开始字符串
<td class="hzwRP_lname05" align="center" height="45">
结束字符串
</td>

内容
前后截取
开始字符串
<td class="hzwRP_lname06" align="left">
结束字符串
<!--/enpcontent--></td>
复选框选上
该标签循环匹配
该标签在分页中匹配


内容替换
<table style="BORDER-RIGHT: #adc1f5 1px solid; BORDER-TOP: #adc1f5 1px solid; BORDER-LEFT: #adc1f5 1px solid; WIDTH: 371px; BORDER-BOTTOM: #adc1f5 1px solid; HEIGHT: 190px" cellspacing="0" bordercolordark="#adc1f5" cellpadding="0" align="right" bordercolorlight="#adc1f5" border="1">(*)</table>
替换为

html标签排除。<p><img><strong>


采集内容中分页获取规则

分页
全部列出模式

<div width="100%" id="displaypagenum" class="black2">

</div>
页: [1]
查看完整版本: 求杭州网新闻的采集规则