guansuo 发表于 2010-12-16 00:32:12

高人来指点下吧??

源码是这样的

<h4 class="no-display">You're currently on:</h4>
<ul class="breadcrumbs">
            <li class="home">
                  <a href="http://www.buyluxurybrands.net/" title="Louis Vuitton">Louis Vuitton</a>
                </li>
                <li> > </li>
                  <li class="category225">
                  <a href="http://www.buyluxurybrands.net/louis-vuitton.html" title="">LOUIS VUITTON</a>
                </li>
                <li> > </li>
                  <li class="category226">
                  <a href="http://www.buyluxurybrands.net/louis-vuitton/women.html" title="">WOMEN</a>
                </li>
                <li> > </li>
                  <li class="category234">
                  <a href="http://www.buyluxurybrands.net/louis-vuitton/women/belts-scarves-accessories.html" title="">Belts,Scarves & Accessories</a>
                </li>
                <li> > </li>
                  <li class="product">
                  ELLIPSD DAMIER BELT                </li>
            </ul>

我想采集 title="">这里的内容</a>这个title=""在整个页面就3个 我就想采集这3个后面的文字   用循环匹配采集
想要的采集结果应该是这样 LOUIS VUITTON|||WOMEN|||Belts,Scarves & Accessories

我写的正则式这样的title="">[参数]</a> 可是怎么采集都是空白
请各位高人指点下 如何写正则

网页地址是这个 http://www.buyluxurybrands.net/ellipsd-damier-belt.html

bocaitianxia 发表于 2010-12-16 15:55:17

不会啊 新手 也在学习中

guansuo 发表于 2010-12-17 07:51:21

等待高人中{:3_145:}

lxy2010 发表于 2010-12-17 11:24:45

回复 1# guansuo

我看了你的需求并打开你给的网址了,在源代码里没发现你截取的数据。
采集时要在原代码里真实存在才可以采集的
    源代码里真实的数据是这样的
<h4 class="no-display">You're currently on:</h4>
<ul class="breadcrumbs">
            <li class="home">
                  <a href="http://www.buyluxurybrands.net/" title="Louis Vuitton">Louis Vuitton</a>
                </li>
                <li> > </li>
                  <li class="product">
                  ELLIPSD DAMIER BELT                </li>
            </ul>

zjyk1984 发表于 2010-12-17 12:28:29

<li class="category(*)">[参数]</li>
使用正则采集,在HTML标签排除那里全选就可以了
页: [1]
查看完整版本: 高人来指点下吧??