火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4915|回复: 5

求杭州网新闻的采集规则

[复制链接]
发表于 2014-1-21 12:11:38 | 显示全部楼层 |阅读模式
1火车车厢
1、有些有分页,有些没分页要采到一个页面。
2、新闻内页要纯文字不要广告和推荐内容等链接!

发表于 2014-1-21 15:00:25 | 显示全部楼层
专业采集:314922759
发表于 2014-1-21 15:53:34 | 显示全部楼层
火车头采集规则发布模块定制联系QQ:315103700
发表于 2014-2-9 11:00:35 | 显示全部楼层
采集规则制作7+5+3+1+6+7+82
发表于 2014-4-19 11:39:11 | 显示全部楼层
采集规则,价格公道。Q1650345008.线上交易。
发表于 2014-5-9 14:00:03 | 显示全部楼层
网址采集测试结果

内容采集测试结果




求我的第一节火车

采网址
以 城市新闻 版块为例

单条网址 http://hznews.hangzhou.com.cn/chengshi/index.htm
批量多页 http://hznews.hangzhou.com.cn/chengshi/index_(*).htm
首项2 项数9 公差1

多级网址采集
从页面自动分析得到地址链接
从该选定区域提取网址

<table width="620" border="0" align="center" cellpadding="0" cellspacing="0">

</table>
结果过滤
不得包含 index_(*).htm|index.htm


采集内容规则

标题
前后截取
开始字符串
<td class="hzwRP_lname05" align="center" height="45">
结束字符串
</td>

内容
前后截取
开始字符串
<td class="hzwRP_lname06" align="left">
结束字符串
<!--/enpcontent--></td>
复选框选上
该标签循环匹配
该标签在分页中匹配


内容替换
<table style="BORDER-RIGHT: #adc1f5 1px solid; BORDER-TOP: #adc1f5 1px solid; BORDER-LEFT: #adc1f5 1px solid; WIDTH: 371px; BORDER-BOTTOM: #adc1f5 1px solid; HEIGHT: 190px" cellspacing="0" bordercolordark="#adc1f5" cellpadding="0" align="right" bordercolorlight="#adc1f5" border="1">(*)</table>
替换为

html标签排除。<p><img><strong>


采集内容中分页获取规则

分页
全部列出模式

<div width="100%" id="displaypagenum" class="black2">

</div>

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-24 14:44

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表