xiaofang 发表于 2013-12-25 14:00:34

关于采集到的文章发布时格式问题 每一段都是顶格开始 而不是首行缩进2个字符

本帖最后由 xiaofang 于 2013-12-25 14:29 编辑

火车采集器版本:v8.1

问题1:关于采集到的文章发布时格式问题,每一段都是顶格开始,而不是首行缩进2个字符。截图如下:

采集网址:http://money.163.com/13/1225/04/9GTO6G1G00253B0H.html
之前有搜过类似问题,论坛上的帖子如下:http://bbs.locoy.com/forum.php?mod=viewthread&tid=43541&highlight=%B2%C9%BC%AF%C4%DA%C8%DD。帖子中讲到修改CSS文件,指的是在编辑器里修改?不是很懂。
归纳了下,1、凡是采集时的文章源代码是这样的,发布时文章的每一段都是顶格开始。截图如下:
               2、 如果采集时的文章源代码是这样的,则正常。截图如下:

问题2:仍然是文章格式问题,遇到图片,段与段之间的间距就变大了,截图如下:
采集网址:http://money.163.com/13/1225/04/9GTO6G1G00253B0H.html
归纳了下:关于为什么段与段之间的间距会变大,是因为原文章有一张图片,截图如下:

关于这个的采集规则是这么写的,截图如下:
具体点如下:(1)html标签排除:勾选了 链接<a hr标签<hr> 去首尾空白字符
                     (2)内容替换:替换<div class=(*)</div> 为 空
                     (3)内容替换:替换<iframe src=(*)> </iframe> 为空

描述有点多。望耐心的看完。菜鸟一枚,望知道的童鞋知无不言,言无不尽。多谢!

303718 发表于 2013-12-25 14:31:35

不会改CSS你可以把“<p>”替换成“<p>后面空格”

xiaofang 发表于 2013-12-25 14:50:33

303718 发表于 2013-12-25 14:31 static/image/common/back.gif
不会改CSS你可以把“”替换成“后面空格”

大神,关于你说的这个办法,我有试过,不行的。刚又试了遍,文章发布时格式没有任何变化,仍然是顶格开始的。我是直接把"<p>“替换成”<p>    “ 是这个意思么?

xiaofang 发表于 2013-12-25 15:05:33

xiaofang 发表于 2013-12-25 14:50 static/image/common/back.gif
大神,关于你说的这个办法,我有试过,不行的。刚又试了遍,文章发布时格式没有任何变化,仍然是顶格开始 ...

大神,我错了,是用这个&nbps; 之前有试过,上次用的是中文状态下的分号,然后不对的。我再试下。

xiaofang 发表于 2013-12-25 15:13:01

xiaofang 发表于 2013-12-25 15:05 static/image/common/back.gif
大神,我错了,是用这个&nbps; 之前有试过,上次用的是中文状态下的分号,然后不对的。我再试下。

大神 把<p>换成<p style="text-indent: 2em;"> 这个就行了。

xiaofang 发表于 2013-12-31 16:56:30

时隔多天,仍然没有人回答我的第2个问题,于是,在2013年12月31日,也就是2013年的最后一天,终于貌似好像想出了解决办法。
第1个问题和第2个问题是有关联的,一个是顶格开始的问题;一个是碰到图片就自动增加一行的问题。经仔细查看,发现增加一行的问题是由于把整块图片写成了以<p>开头的代码,即是一段。
下面放下解决方法:
采集网址:http://money.163.com/special/00252C1E/gjcj.html
采集内容规则:

很呆瓜的解决方法。要是有什么更简便的方法,还望各位大神告之。

gzangding 发表于 2013-12-31 17:03:10

替换 <p>[参数]</p>换行键<p>[参数1]</p>

xiaofang 发表于 2014-1-2 15:16:25

gzangding 发表于 2013-12-31 17:03 static/image/common/back.gif
替换 [参数]换行键[参数1]

我大概懂你的意思,以为图片这段的源代码是这样的<p>[参数]</p> <br/>。如果是这样的话,就好办了。图片这段的源代码是这样的,随便选一个网址做示范:
【网址】http://money.163.com/14/0102/11/9HJ4Q2QM002540BQ.html
【图片这段的源代码】<p><div class="gg200x300">
<iframe src="http://g.163.com/r?site=netease&affiliate=money&cat=article&type=logo300x250&location=13" width="300" height="250" frameborder="no" border="0" marginwidth="0" marginheight="0" scrolling="no"> </iframe>
</div>

yangsi 发表于 2014-1-2 15:49:25

主要是你得懂一点css,
问题1 段首缩进 css属性是text-indent 一般缩进2个字符就是 text-indent:2em
问题2 图片你删掉了,但是定义的div没有删掉,他可能会有行高,所以要在你的样式表文件里加上
.gg200x300{display:none}

两条css解决问题,替换也可以,不过有时候可能会把格式给搞乱

xiaofang 发表于 2014-1-2 15:57:25

yangsi 发表于 2014-1-2 15:49 static/image/common/back.gif
主要是你得懂一点css,
问题1 段首缩进 css属性是text-indent 一般缩进2个字符就是 text-indent:2em
问题2 ...

谢大神!大致懂你的意思了。经你简单地一说,确实很明了了。
页: [1]
查看完整版本: 关于采集到的文章发布时格式问题 每一段都是顶格开始 而不是首行缩进2个字符