bigbother 发表于 2008-8-27 10:12:02

关于文章名排除的规则,请帮忙

有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"
请问哪里出错了?

[ 本帖最后由 bigbother 于 2008-8-29 08:54 编辑 ]

chenfy 发表于 2008-8-27 13:04:21

原帖由 bigbother 于 2008-8-27 10:12 发表 http://bbs.locoy.com/images/common/back.gif
有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"
请问哪里出错了?


如果你这个是有规律的话,那么有一个方法,就是用到正则,我传一张图片上来,你按这个设置就是可以了

bigbother 发表于 2008-8-28 09:46:42

多谢!

但还有一点不明,假如我要采集的源码是<div class="b">我们都在用/火车采集器软件</div>

没有使用正则前,我定义了采集<div class="b">到</div>之间的内容,然后排除“/”字符,采用逆的意见,使用正则后,怎样定义采集区域,即<div class="b">到</div>之间的内容?

另外图中的[参数]/(*) 和[参数1]应该怎么写?

bigbother 发表于 2008-8-29 08:54:08

已经解决问题,谢谢2楼!

李巨华 发表于 2008-11-8 11:32:18

看看,学习一下吧
页: [1]
查看完整版本: 关于文章名排除的规则,请帮忙