怎样处理采集内容排除后出现的大量空行?
我采集了一个网站,由于需要,我排除了网页的<table>标签,和其它的一些标签,但是发表出来的内容出现大量的空行,怎么处理? 如:http://www.upupyou.cn/Article/jpyj/200611/940.html
如果不排除标签的话,发表出来的文章就会乱七八糟的的,如:
http://www.upupyou.cn/Article/jpyj/200611/941.html
我采集的网站是http://www.flgw.cn/Index.html
还请各位高人指点一二,小弟在些谢了先. 内容过滤啊
空白也是内容啊。。。 老大,谢谢回复,但是具体点怎么过滤空白内容呀? 哪位老大能帮忙呀? 支持楼上兄弟的问题 谁知道这个问题该如何解决?
页:
[1]