光辉 发表于 2006-2-23 10:05:32

atboy要的17173的采集规则

采集方式:

根据地址http://go.17173.com/jsp/search/searchnews.jsp?pageno=1&keyWord=10181&channel=10009&kdid=10181
打开后查看下面的分页后得出规则
http://go.17173.com/jsp/search/searchnews.jsp?pageno=(*)&keyWord=10181&channel=10009&kdid=10181

总页数566
使用添加方式2,通配符范围1~566
倍数1

链接地址中必须包含 content

然后在生成1级节点后选择采集多页2级节点
更改名字,保存二级网址

光辉 发表于 2006-2-23 10:16:16

<规则17173>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="-网络游戏新闻-17173.com全球游戏门户第一站&lt;/TITLE&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="内容" 开始字符串="&lt;/IFRAME&gt;" 结束字符串="&lt;DIV id=setKeyLink align=center&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <分页设置 形式="全部" 分页开始="" 分页结束="" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="1" 测试页面="http://news.17173.com/content/2006-02-20/20060220134535289.shtml" />
    <源站编码 编码="Default" />
</规则17173>

光辉 发表于 2006-2-23 10:17:25

<A href="http://news.17173.com/viewpic.htm?url=http://images.17173.com/news/0020060206/s0220eve03.jpg" target=_blank><IMG style="BORDER-RIGHT: #000000 1px solid; BORDER-TOP: #000000 1px solid; BORDER-LEFT: #000000 1px solid; BORDER-BOTTOM: #000000 1px solid" src="http://images.17173.com/news/0020060206/s0220eve03s.jpg"></A>

过滤的话,自己改吧。

fdmao 发表于 2006-2-23 17:08:47

不错,加分

Img 发表于 2009-1-7 17:53:57

17173的分页规则怎么写啊?
页: [1]
查看完整版本: atboy要的17173的采集规则