找回密码

火车采集器软件交流官方论坛

搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2531|回复: 2

采集中遇到干扰字符串的问题

[复制链接]
发表于 2009-5-14 10:31:00 | 显示全部楼层 |阅读模式
我在使用过程中,发现一些文章存在随机干扰字符串,因此采集过程不存在错误的情况下,一旦发布,就会有一些文章采集不全,我的发布网站是用DEDE做的,遇到的干扰字符串形同“
都是有规律的&+英文字符+;我曾经试着替换删除&+(*)+;但是却会误删一些文字,比较麻烦,我想火车头在这方面有没有办法呢
干扰字符串都是:
“
&ldfdgo;
&sdfe;
&werfdgf;

形同上面几串。

这个能否解决啊?
发表于 2009-5-14 15:12:08 | 显示全部楼层
你在采集的时候,可以通过过滤源码的方式。
你可以过滤  &(*);

当然,一般的这样干扰字叫做网页水印。他是在页面上看不到,但源码中出现。之所以会这样,都是有css样式表控制的。你可以注意到 &sdfe; 和其他的干扰码两端都有类似 <span class="***"> </span>这样的分隔符,你可以过滤这些分隔符,这是一个更加安全的方法。
过滤方式发是
<span class="***">(*)</span>
注意,class="***">中的 ***是有具体的英文字母的,比如 class="hidecode"> 这样。
 楼主| 发表于 2009-5-14 16:25:06 | 显示全部楼层
<p>4.2在系统中手工录入客户打印的付款建议通知。<br />T-code: FBE1<br />Menu: Accounts Receivables -&gt; Document Entry &ndash;&gt; Payment Advice<br />注意:用于自动处理未清项的标准可以由用户设定。本例中一张付款建议通知3000元指定支付2张发票,选 用Reference Key 1为清账标准,对应的采购订单编号为PO20080901和PO20080902。</p>
---------------
像上面这段,他是混了三个进去:&gt;&ndash;&gt;  过滤 &(*);会过滤掉一些文字,出现误删文字的现象。

第二种方法,没有发现干扰码两端都有类似 <span class="***"> </span>这样的分隔符。。。。。。
不过我想这种思路应该是DEDE程序设置干扰符号的做法,就是不知道怎么**他。
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

温馨提示:建议您联系官方定制服务,通过官方支付方式完成支付。您与其他非官方账号发生的交易,我方概不承担责任。网络有风险,交易需谨慎

QQ| 手机版|Archiver| 火车采集器官方站

Copyright © 2001-2013 Comsenz Inc.  Template by Comeings! All Rights Reserved.

Powered by Discuz! X3.4( 皖ICP备06000549 )

快速回复 返回顶部 返回列表