2个问题请教,谢谢!
1、采集后,内容头尾都出现: 文章来源:教师之家www.jxgz100.cn(并且会随机变化如:1、中间随机加间隔; 2、大小写 3、加粗等格式变化……)请问如何去除这句话?
2、某篇文章采集后,发现段收段之间的距离实在是大,用换行标签去除后,它们又都首尾不行,跟在了一起。文章又没有什么代码可以替换,请问如何把多个空行变为一个?谢谢! 还是要找些规律排除。再就是多设置几个排除。大小写问题可以在系统设置里面设置忽略大小写。 防采集的不好弄{:4_197:} 如果中间加字不好弄,如果是加粗的那些比较好弄了。去掉格式然后替换关键字 回复 2# 火车头
谢谢。除了*号,有没有替代的字符呢?比如?什么的。(能代替一个字符的)
页:
[1]