火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 4031|回复: 9

请帮忙解解这个站的规则

[复制链接]
发表于 2006-3-6 21:45:31 | 显示全部楼层 |阅读模式
http://www.alwindoor.com/zxzx.asp?title=&MbName=技术热点&page=(*)

*从1到5页
里面还有内页
网址没法采集

研究了会,好像不行,请教一下这里的高手

谢谢了

[ 本帖最后由 ppoo2008 于 2006-3-6 22:02 编辑 ]
发表于 2006-3-6 22:25:18 | 显示全部楼层
规则比较简单,就是网址难采
 楼主| 发表于 2006-3-6 22:36:37 | 显示全部楼层
网址我想办法
能否告诉一下规则?
有分页,不太熟悉
发表于 2006-3-6 22:48:30 | 显示全部楼层
中国幕墙网规则-技术热点(1.03/1.04版)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2006-3-6 23:01:26 | 显示全部楼层
谢谢,但没有把分页考虑进去
这些文章都是有分页的,我就是卡在这里啊
发表于 2006-3-7 12:09:37 | 显示全部楼层
用1。2可以采集分页
问题是我没法入库
测试时是正常的,入库内容为空
发表于 2006-3-7 12:28:03 | 显示全部楼层
试试这个分页规则,测试结果见这http://www.netdream.62m.net/bbs/read.php?tid=25294&fpage=2
<规则-中国幕墙网>
    <标签1 标签名="标题" 开始字符串="&lt;TITLE&gt;" 结束字符串="_技术热点_中国幕墙网&lt;/TITLE&gt;" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签2 标签名="作者" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签3 标签名="出处" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签4 标签名="时间" 开始字符串="" 结束字符串="" 内容排除="" 内容替换="" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <标签5 标签名="内容" 开始字符串="&lt;/div&gt;" 结束字符串="&lt;table align=&quot;center&quot; cellSpacing=0 cellPadding=0  width=&quot;100%&quot;&gt;" 内容排除="" 内容替换="../../→http://www.alwindoor.com/" 采集形式="采集内容" 连接中必须包含="" 连接中不得包含="" 探测真实地址="否" />
    <分页设置 形式="全部" 分页开始="上一页" 分页结束="下一页" />
    <分页合并 形式="回车" 分页代码="#p#" />
    <内容循环 次数="20" 测试页面="http://www.alwindoor.com/info/2005-12-2/2384-1.htm" />
    <源站编码 编码="Default" />
  </规则-中国幕墙网>
发表于 2006-3-7 13:44:12 | 显示全部楼层
netdream
你让我看一下认证版嘛
发表于 2006-3-7 14:12:52 | 显示全部楼层
怪哦,我的回收站 ,我设的是开放版块啊
发表于 2006-3-7 15:00:42 | 显示全部楼层
汗..,fdmao,我设好了,可以看了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

企业微信|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-6-10 18:47

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表