请问内容采集规则,如何去掉两边保留中间
代码如下:<p> 必需<span class=yqlink><form class=yqin action=http://www.iask.com/n method=post><input type=hidden name=k value=%D6%AC%B7%BE></form><a href=http://www.iask.com/n?k=%D6%AC%B7%BE target=_blank onClick="activateYQinl(this);return false;" class=akey title=脂肪>脂肪</a></span>酸:</p>
<p> 必需脂肪酸(如亚油酸、亚麻酸)是在您身体中不能合成的,必需从食物中摄取脂肪酸。它们非常重要</p>我想采集后得到:
<p> 必需脂肪酸:</p>
<p> 必需脂肪酸(如亚油酸、亚麻酸)是在您身体中不能合成的,必需从食物中摄取脂肪酸。它们非常重要</p>也就是脂肪能够保留,而去掉
<span class=yqlink><form class=yqin action=http://www.iask.com/n method=post><input type=hidden name=k value=%D6%AC%B7%BE></form><a href=http://www.iask.com/n?k=%D6%AC%B7%BE target=_blankclass=akey title=脂肪>
和
</a></span>
这两段,请问该如何写啊??用内容替换还是内容排除啊??
[ 本帖最后由 sisen30000 于 2008-8-26 11:10 编辑 ] 用排除就可以了,排除“<span class=(*)</span>” <span class=yqlink><form class=yqin action=http://www.iask.com/n method=post><input type=hidden name=k value=%D6%AC%B7%BE></form><a href=http://www.iask.com/n?k=%D6%AC%B7%BE target=_blank onClick="activateYQinl(this);return false;" class=akey title=脂肪>脂肪</a></span>
谢谢兄弟,脂肪这两个字我想保留啊。 算了,实在不行就直接把form和span a 都不要了。 排除<span class(*) class=akey title=(*)>
排除</a></span>
但这个要看你里面具体的来定 是有损失的内容啊.
页:
[1]