如何排除采集内容中的网址？不是锚链接的，就是单纯的文本的

hyt48079287 发表于 2011-8-4 00:42:37

小弟有个问题：【采集内容规则】里面，在采集【内容】里面，我已经选择了HTML排除：<a>，就是说那些锚链接已经除去了，就剩下那个文本；然后我想在采集的内容中再筛选，例如如果内容有 www.baidu.com 这样的网址直接出现的话，我想去除；然后无论我用【内容排除】或者【内容替换】（替换为空的），测试的结果都是剩下一些例如：/' class='aw' target='_blank'>的代码，看效果应该是【内容替换】或者【内容排除】跟HTML的<a>排除也产生了效果，但是<a>的顺序比较后，所以导致这样的结果，

有什么办法能实现排除采集内容中的网址么？

wxl08 发表于 2011-8-4 10:37:56

采集器执行替换，排除的流程是：内容替换===》内容排除===》html标签排除

页: [1]

火车采集器软件交流官方论坛's Archiver

如何排除采集内容中的网址？不是锚链接的，就是单纯的文本的