hyt48079287 发表于 2011-8-4 00:42:37

如何排除采集内容中的网址?不是锚链接的,就是单纯的文本的

小弟有个问题:【采集内容规则】里面,在采集【内容】里面,我已经选择了HTML排除:<a>,就是说那些 锚链接已经除去了,就剩下那个文本;然后我想在采集的内容中再筛选,例如如果内容有 www.baidu.com 这样的网址直接出现的话,我想去除;然后无论我用【内容排除】或者【内容替换】(替换为空的),测试的结果都是剩下一些例如:/' class='aw' target='_blank'>的代码,看效果应该是【内容替换】或者【内容排除】跟HTML的<a>排除也产生了效果,但是<a>的顺序比较后,所以导致这样的结果,


有什么办法能实现排除采集内容中的网址么?

wxl08 发表于 2011-8-4 10:37:56

采集器执行替换,排除的流程是: 内容替换===》内容排除===》html标签排除
页: [1]
查看完整版本: 如何排除采集内容中的网址?不是锚链接的,就是单纯的文本的