发新话题
打印

atboy要的17173的采集规则

atboy要的17173的采集规则

采集方式:

根据地址http://go.17173.com/jsp/search/searchnews.jsp?pageno=1&keyWord=10181&channel=10009&kdid=10181
打开后查看下面的分页后得出规则
http://go.17173.com/jsp/search/searchnews.jsp?pageno=(*)&keyWord=10181&channel=10009&kdid=10181

总页数566
使用添加方式2,通配符范围1~566
倍数1

链接地址中必须包含 content

然后在生成1级节点后选择采集多页2级节点
更改名字,保存二级网址
本帖最近评分记录
  • netdream +10 2006-2-23 19:05
  • fdmao +5 精品文章 2006-2-23 10:13

TOP

<规则17173>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="-网络游戏新闻-17173.com全球游戏门户第一站&lt;/TITLE&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="内容" 开始字符串="&lt;/IFRAME&gt;" 结束字符串="&lt;DIV id=setKeyLink align=center&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://news.17173.com/content/2006-02-20/20060220134535289.shtml" />
    <源站编码 编码="Default" />
  </规则17173>
本帖最近评分记录
  • netdream +10 2006-2-23 19:05
  • fdmao +5 精品文章 2006-2-23 17:09

TOP

<A href="http://news.17173.com/viewpic.htm?url=http://images.17173.com/news/0020060206/s0220eve03.jpg" target=_blank><IMG style="BORDER-RIGHT: #000000 1px solid; BORDER-TOP: #000000 1px solid; BORDER-LEFT: #000000 1px solid; BORDER-BOTTOM: #000000 1px solid" src="http://images.17173.com/news/0020060206/s0220eve03s.jpg"></A>

过滤的话,自己改吧。

TOP

不错,加分

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.119499 second(s), 8 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-10-15 02:58 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档