is-hakka-gz 发表于 2009-5-14 10:31:00

采集中遇到干扰字符串的问题

我在使用过程中,发现一些文章存在随机干扰字符串,因此采集过程不存在错误的情况下,一旦发布,就会有一些文章采集不全,我的发布网站是用DEDE做的,遇到的干扰字符串形同“
都是有规律的&+英文字符+;我曾经试着替换删除&+(*)+;但是却会误删一些文字,比较麻烦,我想火车头在这方面有没有办法呢
干扰字符串都是:
“
&ldfdgo;
&sdfe;
&werfdgf;

形同上面几串。

这个能否解决啊?

sushy 发表于 2009-5-14 15:12:08

你在采集的时候,可以通过过滤源码的方式。
你可以过滤&(*);

当然,一般的这样干扰字叫做网页水印。他是在页面上看不到,但源码中出现。之所以会这样,都是有css样式表控制的。你可以注意到 &sdfe; 和其他的干扰码两端都有类似 <span class="***"> </span>这样的分隔符,你可以过滤这些分隔符,这是一个更加安全的方法。
过滤方式发是
<span class="***">(*)</span>
注意,class="***">中的 ***是有具体的英文字母的,比如 class="hidecode"> 这样。

is-hakka-gz 发表于 2009-5-14 16:25:06

<p>4.2在系统中手工录入客户打印的付款建议通知。<br />T-code: FBE1<br />Menu: Accounts Receivables -&gt; Document Entry &ndash;&gt; Payment Advice<br />注意:用于自动处理未清项的标准可以由用户设定。本例中一张付款建议通知3000元指定支付2张发票,选 用Reference Key 1为清账标准,对应的采购订单编号为PO20080901和PO20080902。</p>
---------------
像上面这段,他是混了三个进去:&gt;&ndash;&gt;过滤 &(*);会过滤掉一些文字,出现误删文字的现象。

第二种方法,没有发现干扰码两端都有类似 <span class="***"> </span>这样的分隔符。。。。。。
不过我想这种思路应该是DEDE程序设置干扰符号的做法,就是不知道怎么**他。
页: [1]
查看完整版本: 采集中遇到干扰字符串的问题