|
采集时遇到个奇怪的问题.有时采集正常,有时前面采集了一段内容后在<span style="display:none">这里就会断掉,后面的内容采集不到.
干扰码主要为:<span style="display:none">}f$[$~-K?{%I0</span> 这样.
过滤规则为:<span style="display:none"><%var%></span> 替换掉.
为了保险,加多了一条<span<%var%>><%var%></span>
本来以为是:两个连续的span干扰码中的一个,:<span style="display:none">}f$[ ?{%I0</span> 之中出现空格所导致的.但是后来发现单独一个干扰码处也会断开,某个干扰码处断开后,<span style="display:none">采集到并成为文章结尾,而</span>后面的内容完全采集不到. |
|