worromot 发表于 2010-4-28 16:07:35

2个问题请教,谢谢!

1、采集后,内容头尾都出现: 文章来源:教师之家www.jxgz100.cn(并且会随机变化如:1、中间随机加间隔; 2、大小写 3、加粗等格式变化……)

请问如何去除这句话?

2、某篇文章采集后,发现段收段之间的距离实在是大,用换行标签去除后,它们又都首尾不行,跟在了一起。文章又没有什么代码可以替换,请问如何把多个空行变为一个?谢谢!

lxy2010 发表于 2010-4-30 14:21:00

回答问题1:
在采集内容规则中设置内容标签时,下面有个标签内容不得包含文本框,在这里把不想要的内容过滤掉即可
回答问题2:
在内容页标签编辑框中,把html标签排除中的表格行、换行和去首尾空白字符同时打勾即可。

worromot 发表于 2010-4-30 19:20:30

回复 2# lxy2010


    谢谢了。
1、它们会变,不好找规律。
2、都去掉了,就没有格式了。

lixinlin 发表于 2010-5-3 11:23:30

1.用内容排除试试,内容排除文本可以忽略大小写及粗体。
例如:教师之家www.jxgz100.cn粗体为<strong>教师之家www.jxgz100.cn</strong>或<b>教师之家www.jxgz100.cn</b>等,只要排除内容关键字,其代码留着也无妨,因为没有中间的关键字代码是不会留在页面内的。
<srtong></srtong>、<i></i>、<b></b>空代码程序都会忽略。
2.采集显示距离过大没关系,发布时只根据代码换行或空格,例如:一个<br />程序只认为是一个换行,空格再多也只能换一行,应该不影响发布后的效果。

worromot 发表于 2010-5-5 06:43:05

回复 4# lixinlin


    谢谢。我找了一些规律进行排除,不过出问题的几率很大。
页: [1]
查看完整版本: 2个问题请教,谢谢!