artideaweb 发表于 2009-12-9 10:13:05

采集内容时,包括分页显示的信息,有什么办法过滤了?

采集内容时,包括分页显示的信息,有什么办法过滤了?
内容结尾标签不能改,否则不带分页的搜索不到
比如:
<P>&nbsp;&nbsp;&nbsp;&nbsp; 茶艺分类标准第二应依据主泡饮茶具来分类。在泡茶茶艺中,又因使用泡茶茶具的不同而分为壶泡法和杯泡法两大类。壶泡法是在茶壶中泡茶,然后分斟到茶杯(盏)中饮用;杯泡法是直接在茶杯(盏)中泡茶并饮用,明代人称之为"撮泡",撮茶入杯而泡。清代以来,从壶泡法茶艺又分化出专属冲泡青茶的工夫茶艺,杯泡法茶艺又可细分为盖杯泡茶茶艺和玻璃杯泡茶茶艺。工夫茶艺原特指冲泡青茶的茶艺,当代茶人又借鉴工夫茶具和泡法来冲泡非青茶类的茶,故另称之为工夫法</p><div align='left'><b><div id=pages style='float:left;border:1px solid #39f;text-align:center;WIDTH: 30px;HEIGHT: 20px;background-color:#eee;padding:2px;margin:5px;margin-right:0;'><font color='red'>1</font></div><div id=pages style='float:left;border:1px solid #39f;text-align:center;WIDTH: 30px;HEIGHT: 20px;background-color:#eee;padding:2px;margin:5px;margin-right:0;' ><a href='http://www.eyoou.com/chadao/chinatea/200902/22611_2.html'>2</a></div><div id=nextpage style='float:left;border:1px solid #39f;text-align:center;WIDTH: 55px;HEIGHT: 20px;background-color:#eee;padding:2px;margin:5px;'><a href='http://www.eyoou.com/chadao/chinatea/200902/22611_2.html'>下一页</a></div> </b></div>


上面的分页信息怎么给删除了?谢谢!

1471 发表于 2009-12-9 11:43:48

内容标签排除,所有标签。

artideaweb 发表于 2009-12-10 08:42:33

1# artideaweb
这个不可取,那样会把样式都删除了的
页: [1]
查看完整版本: 采集内容时,包括分页显示的信息,有什么办法过滤了?