请帮忙解解这个站的规则
http://www.alwindoor.com/zxzx.asp?title=&MbName=技术热点&page=(*)*从1到5页
里面还有内页
网址没法采集
研究了会,好像不行,请教一下这里的高手
谢谢了
[ 本帖最后由 ppoo2008 于 2006-3-6 22:02 编辑 ] 规则比较简单,就是网址难采 网址我想办法
能否告诉一下规则?
有分页,不太熟悉 中国幕墙网规则-技术热点(1.03/1.04版) 谢谢,但没有把分页考虑进去
这些文章都是有分页的,我就是卡在这里啊 用1。2可以采集分页
问题是我没法入库
测试时是正常的,入库内容为空 试试这个分页规则,测试结果见这http://www.netdream.62m.net/bbs/read.php?tid=25294&fpage=2:
<规则-中国幕墙网>
<标签1 标签名="标题" 开始字符串="<TITLE>" 结束字符串="_技术热点_中国幕墙网</TITLE>" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<标签5 标签名="内容" 开始字符串="</div>" 结束字符串="<table align="center" cellSpacing=0 cellPadding=0width="100%">" 内容排除="" 内容替换="../../→http://www.alwindoor.com/" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
<分页设置 形式="全部" 分页开始="上一页" 分页结束="下一页" />
<分页合并 形式="回车" 分页代码="#p#" />
<内容循环 次数="20" 测试页面="http://www.alwindoor.com/info/2005-12-2/2384-1.htm" />
<源站编码 编码="Default" />
</规则-中国幕墙网> netdream
你让我看一下认证版嘛 怪哦,我的回收站 ,我设的是开放版块啊 汗..,fdmao,我设好了,可以看了
页:
[1]