关于文章名排除的规则,请帮忙
有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"请问哪里出错了?
[ 本帖最后由 bigbother 于 2008-8-29 08:54 编辑 ] 原帖由 bigbother 于 2008-8-27 10:12 发表 http://bbs.locoy.com/images/common/back.gif
有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"
请问哪里出错了?
如果你这个是有规律的话,那么有一个方法,就是用到正则,我传一张图片上来,你按这个设置就是可以了 多谢!
但还有一点不明,假如我要采集的源码是<div class="b">我们都在用/火车采集器软件</div>
没有使用正则前,我定义了采集<div class="b">到</div>之间的内容,然后排除“/”字符,采用逆的意见,使用正则后,怎样定义采集区域,即<div class="b">到</div>之间的内容?
另外图中的[参数]/(*) 和[参数1]应该怎么写? 已经解决问题,谢谢2楼! 看看,学习一下吧
页:
[1]