火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 3750|回复: 9

关于采集到的文章发布时格式问题 每一段都是顶格开始 而不是首行缩进2个字符

[复制链接]
发表于 2013-12-25 14:00:34 | 显示全部楼层 |阅读模式
本帖最后由 xiaofang 于 2013-12-25 14:29 编辑

火车采集器版本:v8.1

问题1:关于采集到的文章发布时格式问题,每一段都是顶格开始,而不是首行缩进2个字符。截图如下:

采集网址:http://money.163.com/13/1225/04/9GTO6G1G00253B0H.html
之前有搜过类似问题,论坛上的帖子如下:http://bbs.locoy.com/forum.php?m ... 9%BC%AF%C4%DA%C8%DD。帖子中讲到修改CSS文件,指的是在编辑器里修改?不是很懂。
归纳了下,1、凡是采集时的文章源代码是这样的,发布时文章的每一段都是顶格开始。截图如下:
                 2、 如果采集时的文章源代码是这样的,则正常。截图如下:  

问题2:仍然是文章格式问题,遇到图片,段与段之间的间距就变大了,截图如下:
采集网址:http://money.163.com/13/1225/04/9GTO6G1G00253B0H.html
归纳了下:关于为什么段与段之间的间距会变大,是因为原文章有一张图片,截图如下:

关于这个的采集规则是这么写的,截图如下:
具体点如下:(1)html标签排除:勾选了 链接<a hr标签<hr> 去首尾空白字符
                     (2)内容替换:替换<div class=(*)</div> 为 空
                     (3)内容替换:替换<iframe src=(*)> </iframe> 为空


描述有点多。望耐心的看完。菜鸟一枚,望知道的童鞋知无不言,言无不尽。多谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-12-25 14:31:35 | 显示全部楼层
不会改CSS你可以把“<p>”替换成“<p>后面空格”
 楼主| 发表于 2013-12-25 14:50:33 | 显示全部楼层
303718 发表于 2013-12-25 14:31
不会改CSS你可以把“”替换成“后面空格”

大神,关于你说的这个办法,我有试过,不行的。刚又试了遍,文章发布时格式没有任何变化,仍然是顶格开始的。我是直接把"<p>“替换成”<p>    “ 是这个意思么?
 楼主| 发表于 2013-12-25 15:05:33 | 显示全部楼层
xiaofang 发表于 2013-12-25 14:50
大神,关于你说的这个办法,我有试过,不行的。刚又试了遍,文章发布时格式没有任何变化,仍然是顶格开始 ...

大神,我错了,是用这个&nbps; 之前有试过,上次用的是中文状态下的分号,然后不对的。我再试下。
 楼主| 发表于 2013-12-25 15:13:01 | 显示全部楼层
xiaofang 发表于 2013-12-25 15:05
大神,我错了,是用这个&nbps; 之前有试过,上次用的是中文状态下的分号,然后不对的。我再试下。

大神 把<p>换成<p style="text-indent: 2em;"> 这个就行了。
 楼主| 发表于 2013-12-31 16:56:30 | 显示全部楼层
时隔多天,仍然没有人回答我的第2个问题,于是,在2013年12月31日,也就是2013年的最后一天,终于貌似好像想出了解决办法。
第1个问题和第2个问题是有关联的,一个是顶格开始的问题;一个是碰到图片就自动增加一行的问题。经仔细查看,发现增加一行的问题是由于把整块图片写成了以<p>开头的代码,即是一段。
下面放下解决方法:
采集网址:http://money.163.com/special/00252C1E/gjcj.html  
采集内容规则:

很呆瓜的解决方法。要是有什么更简便的方法,还望各位大神告之。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
发表于 2013-12-31 17:03:10 | 显示全部楼层
替换 <p>[参数]</p>  换行键  <p>[参数1]</p>
 楼主| 发表于 2014-1-2 15:16:25 | 显示全部楼层
gzangding 发表于 2013-12-31 17:03
替换 [参数]  换行键  [参数1]

我大概懂你的意思,以为图片这段的源代码是这样的<p>[参数]</p> <br/>。如果是这样的话,就好办了。图片这段的源代码是这样的,随便选一个网址做示范:
【网址】http://money.163.com/14/0102/11/9HJ4Q2QM002540BQ.html
【图片这段的源代码】<p><div class="gg200x300">
<iframe src="http://g.163.com/r?site=netease&affiliate=money&cat=article&type=logo300x250&location=13" width="300" height="250" frameborder="no" border="0" marginwidth="0" marginheight="0" scrolling="no"> </iframe>
</div>
发表于 2014-1-2 15:49:25 | 显示全部楼层
主要是你得懂一点css,
问题1 段首缩进 css属性是text-indent 一般缩进2个字符就是 text-indent:2em
问题2 图片你删掉了,但是定义的div没有删掉,他可能会有行高,所以要在你的样式表文件里加上
.gg200x300{display:none}

两条css解决问题,替换也可以,不过有时候可能会把格式给搞乱
 楼主| 发表于 2014-1-2 15:57:25 | 显示全部楼层
yangsi 发表于 2014-1-2 15:49
主要是你得懂一点css,
问题1 段首缩进 css属性是text-indent 一般缩进2个字符就是 text-indent:2em
问题2 ...

谢大神!大致懂你的意思了。经你简单地一说,确实很明了了。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2024-11-25 11:51

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表