2个问题请教,谢谢!
1、采集后,内容头尾都出现: 文章来源:教师之家www.jxgz100.cn(并且会随机变化如:1、中间随机加间隔; 2、大小写 3、加粗等格式变化……)请问如何去除这句话?
2、某篇文章采集后,发现段收段之间的距离实在是大,用换行标签去除后,它们又都首尾不行,跟在了一起。文章又没有什么代码可以替换,请问如何把多个空行变为一个?谢谢! 回答问题1:
在采集内容规则中设置内容标签时,下面有个标签内容不得包含文本框,在这里把不想要的内容过滤掉即可
回答问题2:
在内容页标签编辑框中,把html标签排除中的表格行、换行和去首尾空白字符同时打勾即可。 回复 2# lxy2010
谢谢了。
1、它们会变,不好找规律。
2、都去掉了,就没有格式了。 1.用内容排除试试,内容排除文本可以忽略大小写及粗体。
例如:教师之家www.jxgz100.cn粗体为<strong>教师之家www.jxgz100.cn</strong>或<b>教师之家www.jxgz100.cn</b>等,只要排除内容关键字,其代码留着也无妨,因为没有中间的关键字代码是不会留在页面内的。
<srtong></srtong>、<i></i>、<b></b>空代码程序都会忽略。
2.采集显示距离过大没关系,发布时只根据代码换行或空格,例如:一个<br />程序只认为是一个换行,空格再多也只能换一行,应该不影响发布后的效果。 回复 4# lixinlin
谢谢。我找了一些规律进行排除,不过出问题的几率很大。
页:
[1]