火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2791|回复: 4

2个问题请教,谢谢!

[复制链接]
发表于 2010-4-28 16:07:35 | 显示全部楼层 |阅读模式
1、采集后,内容头尾都出现: 文章来源:教师之家www.jxgz100.cn(并且会随机变化如:1、中间随机加间隔; 2、大小写 3、加粗等格式变化……)

请问如何去除这句话?

2、某篇文章采集后,发现段收段之间的距离实在是大,用换行标签去除后,它们又都首尾不行,跟在了一起。文章又没有什么代码可以替换,请问如何把多个空行变为一个?谢谢!
发表于 2010-4-30 14:21:00 | 显示全部楼层
回答问题1:
在采集内容规则中设置内容标签时,下面有个标签内容不得包含文本框,在这里把不想要的内容过滤掉即可
回答问题2:
在内容页标签编辑框中,把html标签排除中的表格行、换行和去首尾空白字符同时打勾即可。
 楼主| 发表于 2010-4-30 19:20:30 | 显示全部楼层
回复 2# lxy2010


    谢谢了。
1、它们会变,不好找规律。
2、都去掉了,就没有格式了。
发表于 2010-5-3 11:23:30 | 显示全部楼层
1.用内容排除试试,内容排除文本可以忽略大小写及粗体。
例如:教师之家www.jxgz100.cn粗体为<strong>教师之家www.jxgz100.cn</strong>或<b>教师之家www.jxgz100.cn</b>等,只要排除内容关键字,其代码留着也无妨,因为没有中间的关键字代码是不会留在页面内的。
<srtong></srtong>、<i></i>、<b></b>空代码程序都会忽略。
2.采集显示距离过大没关系,发布时只根据代码换行或空格,例如:一个<br />程序只认为是一个换行,空格再多也只能换一行,应该不影响发布后的效果。
 楼主| 发表于 2010-5-5 06:43:05 | 显示全部楼层
回复 4# lixinlin


    谢谢。我找了一些规律进行排除,不过出问题的几率很大。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-5-19 01:47

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表