火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 9027|回复: 16

怎么用正则提取:匹配这段代码中的地址?

[复制链接]
发表于 2007-12-30 14:36:51 | 显示全部楼层 |阅读模式
<!--{{{start:page -->
    <div class="page">
        <ul>
                    <li><a href="/dir/1111_over_date_201_3333.html" class="pre" >上一页</a></li>
                <li><a href="/dir/1111_over_date_101_3333.html">5</a></li> <li><a href="/dir/1111_over_date_126_3333.html">6</a></li> <li><a href="/dir/1111_over_date_151_3333.html">7</a></li> <li><a href="/dir/1111_over_date_176_3333.html">8</a></li> <li><a href="/dir/1111_over_date_201_3333.html">9</a></li> <li><span>10</span></li> <li><a href="/dir/1111_over_date_251_3333.html">11</a></li> <li><a href="/dir/1111_over_date_276_3333.html">12</a></li> <li><a href="/dir/1111_over_date_301_3333.html">13</a></li> <li><a href="/dir/1111_over_date_326_3333.html">14</a></li>                     <li><a href="/dir/1111_over_date_251_3333.html" class="nxt" ></a></li>
                </ul>
    </div>
    <!--}}}end:page -->


目标实际网址是 http://127.0.0.1/dir/1111_over_date_201_3333.html

201 126这些是可变的,要提取的目标实际地址在上面。



我建的规则是:
源地址
http://127.0.0.1/dir/1111_over_date.html
源代码开始:
    <div class="page">
结束:
</ul>
    </div>
    <!--}}}end:page -->
脚本规则:
<a href="/dir/1111_over_date_[参数]_3333.html"

实际地址是:

http://127.0.0.1/dir/1111_over_date_[参数1]_3333.html

采地址的时候提示:没有匹配地址,为什么?哪里出了错?

[ 本帖最后由 godisgod2 于 2007-12-30 14:43 编辑 ]
发表于 2007-12-30 14:40:47 | 显示全部楼层
不知道
帮你顶下
发表于 2007-12-30 14:45:31 | 显示全部楼层
脚本规则:
<a href=/dir/1111_over_date_[参数]_3333.html"

<a href="/
这里的双引号呢???
 楼主| 发表于 2007-12-30 14:48:16 | 显示全部楼层
我补上了,刚才发贴忘了
补上也没用
发表于 2007-12-30 14:50:35 | 显示全部楼层
如果加了双引号还不行.真实地址写出来.
从你修改后的贴子内容看.你的设置没错.
可能是别的地方的错误引起的.
 楼主| 发表于 2007-12-30 14:54:32 | 显示全部楼层
href="/dir/
这儿不是全个地址,没带HTTP,可能是这的问题?
发表于 2007-12-30 15:05:46 | 显示全部楼层
这个站不用正则.
你说的随机数.
其实是25一跳.
用批量加网址.间隔倍数写25.
 楼主| 发表于 2007-12-30 15:09:16 | 显示全部楼层
- -这样,晕。我默认1,采了好多别的,没办法才想用正则。

另外正则不能处理吗?
 楼主| 发表于 2007-12-30 15:09:55 | 显示全部楼层
谢谢FLA,比我细心多了
 楼主| 发表于 2007-12-30 15:12:15 | 显示全部楼层
25不行,匹配不到真的网址。少1了
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-20 00:08

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表