ppoo2008 发表于 2006-3-6 21:45:31

请帮忙解解这个站的规则

http://www.alwindoor.com/zxzx.asp?title=&MbName=技术热点&page=(*)

*从1到5页
里面还有内页
网址没法采集

研究了会,好像不行,请教一下这里的高手

谢谢了

[ 本帖最后由 ppoo2008 于 2006-3-6 22:02 编辑 ]

fdmao 发表于 2006-3-6 22:25:18

规则比较简单,就是网址难采

ppoo2008 发表于 2006-3-6 22:36:37

网址我想办法
能否告诉一下规则?
有分页,不太熟悉

fdmao 发表于 2006-3-6 22:48:30

中国幕墙网规则-技术热点(1.03/1.04版)

ppoo2008 发表于 2006-3-6 23:01:26

谢谢,但没有把分页考虑进去
这些文章都是有分页的,我就是卡在这里啊

20051008 发表于 2006-3-7 12:09:37

用1。2可以采集分页
问题是我没法入库
测试时是正常的,入库内容为空

netdream 发表于 2006-3-7 12:28:03

试试这个分页规则,测试结果见这http://www.netdream.62m.net/bbs/read.php?tid=25294&fpage=2:
<规则-中国幕墙网>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="_技术热点_中国幕墙网&lt;/TITLE&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;/div&gt;" 结束字符串="&lt;table align=&quot;center&quot; cellSpacing=0 cellPadding=0width=&quot;100%&quot;&gt;" 内容排除="" 内容替换="../../→http://www.alwindoor.com/" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <分页设置 形式="全部" 分页开始="上一页" 分页结束="下一页" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="20" 测试页面="http://www.alwindoor.com/info/2005-12-2/2384-1.htm" />
    <源站编码 编码="Default" />
</规则-中国幕墙网>

fdmao 发表于 2006-3-7 13:44:12

netdream
你让我看一下认证版嘛

netdream 发表于 2006-3-7 14:12:52

怪哦,我的回收站 ,我设的是开放版块啊

netdream 发表于 2006-3-7 15:00:42

汗..,fdmao,我设好了,可以看了
页: [1]
查看完整版本: 请帮忙解解这个站的规则