火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2720|回复: 4

关于文章名排除的规则,请帮忙

[复制链接]
发表于 2008-8-27 10:12:02 | 显示全部楼层 |阅读模式
有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"
请问哪里出错了?

[ 本帖最后由 bigbother 于 2008-8-29 08:54 编辑 ]
发表于 2008-8-27 13:04:21 | 显示全部楼层
原帖由 bigbother 于 2008-8-27 10:12 发表
有个标题太长,结构为“123/456789”,我想排除斜杠后的文字,在采集页面规则里写了“/(*)”,但是采集后只是把“/”给排除了,结果变成"123456789"
请问哪里出错了?



如果你这个是有规律的话,那么有一个方法,就是用到正则,我传一张图片上来,你按这个设置就是可以了

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?加入会员

x
 楼主| 发表于 2008-8-28 09:46:42 | 显示全部楼层
多谢!

但还有一点不明,假如我要采集的源码是<div class="b">我们都在用/火车采集器软件</div>

没有使用正则前,我定义了采集<div class="b">到</div>之间的内容,然后排除“/”字符,采用逆的意见,使用正则后,怎样定义采集区域,即<div class="b">到</div>之间的内容?

另外图中的[参数]/(*) 和[参数1]应该怎么写?
 楼主| 发表于 2008-8-29 08:54:08 | 显示全部楼层
已经解决问题,谢谢2楼!
发表于 2008-11-8 11:32:18 | 显示全部楼层
看看,学习一下吧
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-17 17:52

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表