如何设置只接受 <p><br> 标签？

bigqin 发表于 2007-12-15 19:46:31

火车的HTML标签默认是排除发，但是我是只想接受<p><br> 两个控制格式的，其他的全部删除掉。请问如何设置？

vvzz 发表于 2007-12-15 20:29:25

内容过滤里有，如果没有的html标记也可以在下面的排除里加

bigqin 发表于 2007-12-15 20:34:52

那么多标记要一个一个排除，比较麻烦的。建议增加，“只接受HTML标签”选项。

sushy 发表于 2007-12-15 20:46:42

问题在于，网页中的所有元素都是html标签啊。以你的意思，要么就什么都过滤了，要么什么都过滤不掉。

举例来说
<table>
<tr>
<td>11111</td>
</tr>
<tr>
<td>222222</td>
</tr>

</table>
如果我要过滤所有的标签，就成了1111222222，百度搜索就是这么做的。但是这个有什么用呢？

采集回来的东西，要么入库，要么发表。而入库的目的还是发表。发表就要给人看，给人看就要有标识符。如果你采集回来11111122222222，那么你发表的时候怎么把标识符表达出来呢？

还有就是 &nabsp;这样的空格，要不要也过滤掉呢？

相比之下，一个规则写好以后，可以采集成千上万篇，并且具有通用性，这不是一件麻烦的事情。

sushy 发表于 2007-12-15 20:53:36

拿<p>来说。

如果你只采集<p>中的内容。如果你的网页中有多个<p></p>,如
<div>垃圾</div>
<p>垃圾</p>
<p>需要的内容 </p>
<p>垃圾</p>
这时候你接收<p>标签的话，还是会采集到垃圾。如果网页是
<div>垃圾</div>
<p>所要的内容 </p>
这样的话，你只需要采集<p>开头 </p>结束的内容就可以了。

bigqin 发表于 2007-12-16 12:02:06

楼上不要钻牛角尖啊。我的意思就是留下几个简单的控制格式的，比如换行，段落之类。

其余的什么加粗，下划线之类的去掉，目的让风格更简洁些、。&nabsp;我过滤了啊，“&”传送不过去。对方的数据里没有tr td，因为是用户发表的，不支持表格，所以只有些简单的HTML标记，不需要过滤表格标记的啊、、

sushy 发表于 2007-12-16 12:23:48

问题的关键就在于“简单的控制格式 ”谁说了算？

火车头吗？显然不是，除非他自己采集。当然是使用者说了算。那么火车头软件就必须考虑到每一位用户的需求。这就是通用软件的可扩展性。

在采集的过程中，我们发现，有的页面上原作者会在部分段落或句子中加上超链接，加上颜色等。那么在采集的过程中，这些链接、颜色等是否要去掉呢？可能采集相同一个网页，不同的采集者做法就不相同。

火车头的html标签排除功能已经不错了，当然，楼主的意思可能是希望火车头软件再增加一块面板，上面是要求软件保留的<html>标签内容，不再保留列表上的都删除。这种思路固然是好，但还是横个床，掉个被，一回事。

做采集，特别是精细化采集，它是一门艺术，就像你用PHOTOSHOP处理相片的一样。只有深刻领会软件的含义并精心设计，才能取得好的成绩。偷懒，走捷径（除非你精通），往往是得不到好东西的。可能你没有关注过 www.admin5.com ，如果你关注过的话，你就知道，一夜之间出来的大型网站（采集制造），就是百度 K 的主要对象，而那些原创内容网站往往得到百度的青睐。

bigqin 发表于 2007-12-16 14:19:53

哈哈，貌似admin5被K过

页: [1]

火车采集器软件交流官方论坛's Archiver

如何设置只接受 <p><br> 标签？