采集中遇到干扰字符串的问题
我在使用过程中,发现一些文章存在随机干扰字符串,因此采集过程不存在错误的情况下,一旦发布,就会有一些文章采集不全,我的发布网站是用DEDE做的,遇到的干扰字符串形同“都是有规律的&+英文字符+;我曾经试着替换删除&+(*)+;但是却会误删一些文字,比较麻烦,我想火车头在这方面有没有办法呢
干扰字符串都是:
“
&ldfdgo;
&sdfe;
&werfdgf;
形同上面几串。
这个能否解决啊? 你在采集的时候,可以通过过滤源码的方式。
你可以过滤&(*);
当然,一般的这样干扰字叫做网页水印。他是在页面上看不到,但源码中出现。之所以会这样,都是有css样式表控制的。你可以注意到 &sdfe; 和其他的干扰码两端都有类似 <span class="***"> </span>这样的分隔符,你可以过滤这些分隔符,这是一个更加安全的方法。
过滤方式发是
<span class="***">(*)</span>
注意,class="***">中的 ***是有具体的英文字母的,比如 class="hidecode"> 这样。 <p>4.2在系统中手工录入客户打印的付款建议通知。<br />T-code: FBE1<br />Menu: Accounts Receivables -> Document Entry –> Payment Advice<br />注意:用于自动处理未清项的标准可以由用户设定。本例中一张付款建议通知3000元指定支付2张发票,选 用Reference Key 1为清账标准,对应的采购订单编号为PO20080901和PO20080902。</p>
---------------
像上面这段,他是混了三个进去:>–>过滤 &(*);会过滤掉一些文字,出现误删文字的现象。
第二种方法,没有发现干扰码两端都有类似 <span class="***"> </span>这样的分隔符。。。。。。
不过我想这种思路应该是DEDE程序设置干扰符号的做法,就是不知道怎么**他。
页:
[1]