火车采集器V2008版更新[2008-08-08][火车车厢管理制度]论坛活跃、奖励计划http://domain.locoy.com火车采集器高级版本在线订购高级版本功能及技术支持列表
返回列表 回复 发帖

请帮忙解解这个站的规则

http://www.alwindoor.com/zxzx.asp?title=&MbName=技术热点&page=(*)

*从1到5页
里面还有内页
网址没法采集

研究了会,好像不行,请教一下这里的高手

谢谢了

[ 本帖最后由 ppoo2008 于 2006-3-6 22:02 编辑 ]
规则比较简单,就是网址难采
车旅联盟论坛:http://www.lzoutdoor.net
网址我想办法
能否告诉一下规则?
有分页,不太熟悉
中国幕墙网规则-技术热点(1.03/1.04版)
附件: 您所在的用户组无法下载或查看附件
车旅联盟论坛:http://www.lzoutdoor.net
谢谢,但没有把分页考虑进去
这些文章都是有分页的,我就是卡在这里啊
用1。2可以采集分页
问题是我没法入库
测试时是正常的,入库内容为空
试试这个分页规则,测试结果见这http://www.netdream.62m.net/bbs/read.php?tid=25294&fpage=2
<规则-中国幕墙网>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="_技术热点_中国幕墙网&lt;/TITLE&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;/div&gt;" 结束字符串="&lt;table align=&quot;center&quot; cellSpacing=0 cellPadding=0  width=&quot;100%&quot;&gt;" 内容排除="" 内容替换="../../→http://www.alwindoor.com/" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <分页设置 形式="全部" 分页开始="上一页" 分页结束="下一页" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="20" 测试页面="http://www.alwindoor.com/info/2005-12-2/2384-1.htm" />
    <源站编码 编码="Default" />
  </规则-中国幕墙网>
netdream
你让我看一下认证版嘛
车旅联盟论坛:http://www.lzoutdoor.net
怪哦,我的回收站 ,我设的是开放版块啊
汗..,fdmao,我设好了,可以看了
返回列表
售前客服QQ: 火车采集器客服 rq204, 火车采集器客服 飞越无限火车采集器客服 孤魂火车采集器客服 尘缘, 联系电话:0551-3495249(技术合作问题) 023-58436018 (08:00-20:00-客服),0752-2553545(09:00-20:00-客服)