数据替换和排除问题
今天在使用火车头采集的时候,发现有些数据随便怎么弄都无法排除掉,夹杂在文章中很烦人。比如下面那些
<STRONG>小编今日推荐</STRONG>
男人保肝护肾喝啥茶?
夫妻夏季房事的养生道<BR>
女人上床前必须做的六件事<BR>
15种日常食物的瘦腿标兵
护胸八禁忌 美胸更坚挺<BR>
为何“香”的食物消除疲惫
?
<STRONG>更多保健常识</STRONG>-→ <FONT
color=#990000>减肥瘦身</FONT> <FONT
color=#990000>女性养生</FONT> <FONT
color=#990000>美容护肤</FONT> <FONT
color=#990000>养生保健</FONT> <FONT
color=#990000>育儿</FONT> <FONT
color=#990000>健康饮食</FONT> <FONT color=#990000>心理</FONT> <FONT
color=#990000>男性健康</FONT> <FONT
color=#990000>两性</FONT>
</TBODY>
<P> <FONT
color=#ff00ff>岁月静静
地流逝,不知不觉中,皱纹蹑手蹑脚地爬上了你的面庞,这是多么令人苦恼。纵然是岁月无情,但请仔细想一想,自己平时有没有什么坏习惯,才使这些皱纹有可乘之机。</FONT><FONT
color=#ff00ff></P>
<P>
我用
<STRONG>小编今(*)
<P>
不行,总之类似的都不行。。。
高手能告诉我此类垃圾文字如何排除掉吗,有啥规则没。。。
我发现比如 小编今日推荐能排除的。
但是 <STRONG>小编今日推荐</STRONG> 就不行了
哎~~~教教我吧。。。 本帖最后由 连通 于 2009-9-16 23:00 编辑
按源代码的.你看源代码.不按测试结果. 排除, 替换 之类的火车处理流程你好像还没弄清楚 建议楼主多看看论坛的教程
页:
[1]