火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3356|回复: 7

如何设置只接受 <p><br> 标签?

[复制链接]
发表于 2007-12-15 19:46:31 | 显示全部楼层 |阅读模式
火车的HTML标签默认是排除发,但是我是只想接受<p><br> 两个控制格式的,其他的全部删除掉。请问如何设置?
发表于 2007-12-15 20:29:25 | 显示全部楼层
内容过滤里有,如果没有的html标记也可以在下面的 排除 里加
 楼主| 发表于 2007-12-15 20:34:52 | 显示全部楼层
那么多标记要一个一个排除,比较麻烦的。建议增加,“只接受HTML标签”选项。
发表于 2007-12-15 20:46:42 | 显示全部楼层
问题在于,网页中的所有元素都是html标签啊。以你的意思,要么就什么都过滤了,要么什么都过滤不掉。

举例来说
<table>
<tr>
<td>11111</td>
</tr>
<tr>
<td>222222</td>
</tr>

</table>
如果我要过滤所有的标签,就成了1111222222,百度搜索就是这么做的。但是这个有什么用呢?

采集回来的东西,要么入库,要么发表。而入库的目的还是发表。发表就要给人看,给人看就要有标识符。如果你采集回来11111122222222,那么你发表的时候怎么把标识符表达出来呢?

还有就是 &nabsp;这样的空格,要不要也过滤掉呢?

相比之下,一个规则写好以后,可以采集成千上万篇,并且具有通用性,这不是一件麻烦的事情。
发表于 2007-12-15 20:53:36 | 显示全部楼层
拿<p>来说。

如果你只采集<p>中的内容。如果你的网页中有多个<p></p>,如
<div>垃圾</div>
<p>垃圾</p>
<p>需要的内容 </p>
<p>垃圾</p>
这时候你接收<p>标签的话,还是会采集到垃圾。如果网页是
<div>垃圾</div>
<p>所要的内容 </p>
这样的话,你只需要采集<p>开头 </p>结束的内容就可以了。
 楼主| 发表于 2007-12-16 12:02:06 | 显示全部楼层
楼上不要钻牛角尖啊。我的意思就是留下几个简单的控制格式的,比如换行,段落之类。

其余的什么加粗,下划线之类的去掉,目的让风格更简洁些、。&nabsp;我过滤了啊,“&”传送不过去。对方的数据里没有tr td,因为是用户发表的,不支持表格,所以只有些简单的HTML标记,不需要过滤表格标记的啊、、
发表于 2007-12-16 12:23:48 | 显示全部楼层
问题的关键就在于  “简单的控制格式 ”  谁说了算?

火车头吗?显然不是,除非他自己采集。当然是使用者说了算。那么火车头软件就必须考虑到每一位用户的需求。这就是通用软件的可扩展性。

在采集的过程中,我们发现,有的页面上原作者会在部分段落或句子中加上超链接,加上颜色等。那么在采集的过程中,这些链接、颜色等是否要去掉呢?可能采集相同一个网页,不同的采集者做法就不相同。

火车头的html标签排除功能已经不错了,当然,楼主的意思可能是 希望火车头软件再增加一块面板,上面是要求软件保留的<html>标签内容,不再保留列表上的都删除。这种思路固然是好,但还是横个床,掉个被,一回事。

做采集,特别是精细化采集,它是一门艺术,就像你用PHOTOSHOP处理相片的一样。只有深刻领会软件的含义并精心设计,才能取得好的成绩。偷懒,走捷径(除非你精通),往往是得不到好东西的。可能你没有关注过 www.admin5.com ,如果你关注过的话,你就知道,一夜之间出来的大型网站(采集制造),就是百度 K 的主要对象,而那些原创内容网站往往得到百度的青睐。
 楼主| 发表于 2007-12-16 14:19:53 | 显示全部楼层
哈哈,貌似admin5被K过
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-19 04:37

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表