关于文章名排除的规则，请帮忙

bigbother 发表于 2008-8-27 10:12:02

有个标题太长，结构为“123/456789”，我想排除斜杠后的文字，在采集页面规则里写了“/(*)”，但是采集后只是把“/”给排除了，结果变成"123456789"
请问哪里出错了？

[ 本帖最后由 bigbother 于 2008-8-29 08:54 编辑 ]

chenfy 发表于 2008-8-27 13:04:21

原帖由 bigbother 于 2008-8-27 10:12 发表 http://bbs.locoy.com/images/common/back.gif
有个标题太长，结构为“123/456789”，我想排除斜杠后的文字，在采集页面规则里写了“/(*)”，但是采集后只是把“/”给排除了，结果变成"123456789"
请问哪里出错了？

如果你这个是有规律的话，那么有一个方法，就是用到正则，我传一张图片上来，你按这个设置就是可以了

bigbother 发表于 2008-8-28 09:46:42

多谢！

但还有一点不明，假如我要采集的源码是<div class="b">我们都在用/火车采集器软件</div>

没有使用正则前，我定义了采集<div class="b">到</div>之间的内容，然后排除“/”字符，采用逆的意见，使用正则后，怎样定义采集区域，即<div class="b">到</div>之间的内容？

另外图中的[参数]/(*) 和[参数1]应该怎么写？

bigbother 发表于 2008-8-29 08:54:08

已经解决问题，谢谢2楼！

李巨华 发表于 2008-11-8 11:32:18

看看，学习一下吧

页: [1]

火车采集器软件交流官方论坛's Archiver

关于文章名排除的规则，请帮忙