如何设置只接受 <p><br> 标签?
火车的HTML标签默认是排除发,但是我是只想接受<p><br> 两个控制格式的,其他的全部删除掉。请问如何设置? 内容过滤里有,如果没有的html标记也可以在下面的 排除 里加 那么多标记要一个一个排除,比较麻烦的。建议增加,“只接受HTML标签”选项。 问题在于,网页中的所有元素都是html标签啊。以你的意思,要么就什么都过滤了,要么什么都过滤不掉。举例来说
<table>
<tr>
<td>11111</td>
</tr>
<tr>
<td>222222</td>
</tr>
</table>
如果我要过滤所有的标签,就成了1111222222,百度搜索就是这么做的。但是这个有什么用呢?
采集回来的东西,要么入库,要么发表。而入库的目的还是发表。发表就要给人看,给人看就要有标识符。如果你采集回来11111122222222,那么你发表的时候怎么把标识符表达出来呢?
还有就是 &nabsp;这样的空格,要不要也过滤掉呢?
相比之下,一个规则写好以后,可以采集成千上万篇,并且具有通用性,这不是一件麻烦的事情。 拿<p>来说。
如果你只采集<p>中的内容。如果你的网页中有多个<p></p>,如
<div>垃圾</div>
<p>垃圾</p>
<p>需要的内容 </p>
<p>垃圾</p>
这时候你接收<p>标签的话,还是会采集到垃圾。如果网页是
<div>垃圾</div>
<p>所要的内容 </p>
这样的话,你只需要采集<p>开头 </p>结束的内容就可以了。 楼上不要钻牛角尖啊。我的意思就是留下几个简单的控制格式的,比如换行,段落之类。
其余的什么加粗,下划线之类的去掉,目的让风格更简洁些、。&nabsp;我过滤了啊,“&”传送不过去。对方的数据里没有tr td,因为是用户发表的,不支持表格,所以只有些简单的HTML标记,不需要过滤表格标记的啊、、 问题的关键就在于“简单的控制格式 ”谁说了算?
火车头吗?显然不是,除非他自己采集。当然是使用者说了算。那么火车头软件就必须考虑到每一位用户的需求。这就是通用软件的可扩展性。
在采集的过程中,我们发现,有的页面上原作者会在部分段落或句子中加上超链接,加上颜色等。那么在采集的过程中,这些链接、颜色等是否要去掉呢?可能采集相同一个网页,不同的采集者做法就不相同。
火车头的html标签排除功能已经不错了,当然,楼主的意思可能是 希望火车头软件再增加一块面板,上面是要求软件保留的<html>标签内容,不再保留列表上的都删除。这种思路固然是好,但还是横个床,掉个被,一回事。
做采集,特别是精细化采集,它是一门艺术,就像你用PHOTOSHOP处理相片的一样。只有深刻领会软件的含义并精心设计,才能取得好的成绩。偷懒,走捷径(除非你精通),往往是得不到好东西的。可能你没有关注过 www.admin5.com ,如果你关注过的话,你就知道,一夜之间出来的大型网站(采集制造),就是百度 K 的主要对象,而那些原创内容网站往往得到百度的青睐。 哈哈,貌似admin5被K过
页:
[1]