多页采集出现了问题
我采集一个下载站,但它的软件页面和下载页面是分开的,所以我需要多页采集它的下载页面隐藏在软件页面的源代码里面
<!--{start:down buttton-->
<div><a href="/soft/download.asp?softid=560" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>
如果是取首位的话,起始字符直接填写
<!--{start:down buttton-->
<div><a href="/
终止字符直接填写" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>
就都搞定了。可是2008版的里面竟然搞了一个什么正则表达组合的东西。这是干什么的?我要采这个网址究竟怎么一个组合法呢?请高人明示,谢谢! 匹配内容:
<!--{start:down buttton-->
<div><a href="/[参数]" target="_blank"><img src="/images/down.gif" alt="English InterFace to download" border="0" /></a></div>
组合结果:
[参数1] 好深奥呀
http://p8.images22.51img1.com/6000/qwb654/852fad10dd443bb0292fff0ca514f90d.gif
不留名 坏蛋是怎样炼成的2 凡人修仙传
页:
[1]