发新话题
打印

[2008版] 多页采集出现了问题

多页采集出现了问题

我采集一个下载站,但它的软件页面和下载页面是分开的,所以我需要多页采集

它的下载页面隐藏在软件页面的源代码里面

<!--{start:down buttton-->
<div><a href="/soft/download.asp?softid=560" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>

如果是取首位的话,起始字符直接填写

<!--{start:down buttton-->
<div><a href="/

终止字符直接填写" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>

就都搞定了。可是2008版的里面竟然搞了一个什么正则表达组合的东西。这是干什么的?我要采这个网址究竟怎么一个组合法呢?请高人明示,谢谢!

TOP

匹配内容:
<!--{start:down buttton-->
<div><a href="/[参数]" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>

组合结果:
[参数1]
本帖最近评分记录
  • rq204 活跃度 +5 帮助会员解答问题 2008-9-8 16:52
  • rq204 火车车厢 +2 帮助会员解答问题 2008-9-8 16:52
专踩牛B站,js封装,flash调用,多重防踩;定制智能采集接口,自动化接口,数据翻译,伪原创策略组合,价格比对,验证码识别,口碑等图片样式电话识别。。。。QQ:肆零肆叁叁肆捌玖柒(最低消费200元)

TOP

TOP

发新话题
Powered by Discuz! 6.0.0  © 2001-2007 Comsenz Technology Ltd
Processed in 0.175364 second(s), 7 queries, Gzip enabled
当前时区 GMT+8, 现在时间是 2008-12-2 07:03 皖ICP备06000549 清除 Cookies - 联系我们 - 火车采集器官方站 - 静态归档