火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 1939|回复: 3

救命哪!标签规则问题!

[复制链接]
发表于 2008-11-2 01:06:28 | 显示全部楼层 |阅读模式
网页源代码:<div class="left_list"><a href="/">小说</a> / <a href="/ch/12.html">短篇作品</a> / <a href="/ch/13.html">短篇小说</a> / 最后的疯狂</div> 
</div>

我要取文章所属的栏目ID,就是<a href="/ch/13.html">短篇小说</a>这里面的"13",不管我怎么设开始字符串都取的是"12",求高人指点!
注1:“ / ”这3个字符只在这一行才有,我是以这个为开始字符串;
注2:其中“小说”是固定格式,“短篇作品”和“短篇小说”都是变量。


多谢rq204的帮助,我再补充一点,栏目有二级的,也有三级的,我认为的难点就在这里,因为前面两个栏目是一样的标识,不好区分,如果按三级的写,那只有二级的文章就取不到值了。

[ 本帖最后由 godmaster 于 2008-11-2 01:33 编辑 ]
发表于 2008-11-2 01:09:55 | 显示全部楼层
小说</a>(*)</a>(*)/ch/

评分

1

查看全部评分

 楼主| 发表于 2008-11-2 01:28:40 | 显示全部楼层

回复 2楼 的帖子

多谢!但我忘了说我觉得最难的地方,栏目不是固定格式,这篇是三级分类,有的文章是二级分类。
发表于 2008-11-2 09:17:38 | 显示全部楼层

回复 3楼 的帖子

正则表达式   <div class="left_list">.*?(\d+)\.html[^html]*</div>
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-23 12:07

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表