火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 7372|回复: 10

[还未解决]请教火车头的一个用正则采集问题,困惑很久了,6月12号

[复制链接]
发表于 2008-6-9 22:10:35 | 显示全部楼层 |阅读模式
我就举例简单说明下

三个标签  [标题] [内容] [时间]

[标题]标签的采集范围是:<title>和</title>
[时间]标签的采集用的是通过自定义采集系统时间
[内容]标签的采集,比如我用正则采集 <table(*)>[参数]</table>这里面的数据 [参数1]

现在我想要实现的是:[内容]标签采集到的数据是   [参数1]+[时间]


例如 网页源码能够采集到的内容是“我是谁。”,采集到的系统时间是“2008-6-8 21:36:21”

我想采集到并且输出的时候实现的内容是“我是谁。2008-6-8 21:36:21”

这个如何写规则,正则如何实现

(补充:首先感谢下楼这位仁兄提出这种解决办法,但是,这种解决办法有点治标不治本,比如,我内容标签是循环匹配的...我想每个内容后面都加入这个时间标签,,这又如何是好?更或者每个内容后面加入的不是时间标签而是随机数字,那如何使内容后面跟的这随机数字也不重复?现在只要能实现每个内容后面能加入固定字符就可以了,并且这个固定字符是采集到的字符,而不是在全局设置里面设置的分隔符,万分感谢!)

[ 本帖最后由 jevenz 于 2008-6-12 21:21 编辑 ]
发表于 2008-6-10 07:50:57 | 显示全部楼层
要设置内容发布模块(打开火车头的文件LocoyModule.exe,然后编辑发布模块),进行标签合并,用[标签:内容][标签:时间]替换原来的[标签:内容]就可以了。

评分

1

查看全部评分

发表于 2008-6-10 12:47:54 | 显示全部楼层
教程区有教程的,可以看一下
发表于 2008-6-10 17:39:17 | 显示全部楼层
呵呵
谢谢加车厢和活跃度
 楼主| 发表于 2008-6-12 02:18:30 | 显示全部楼层
补充了问题,
 楼主| 发表于 2008-6-12 21:21:42 | 显示全部楼层
....没人知道吗?
 楼主| 发表于 2008-6-14 20:13:16 | 显示全部楼层
再顶上去 ,,,,
发表于 2008-6-15 01:21:05 | 显示全部楼层
顶顶更健康
发表于 2008-6-16 00:55:30 | 显示全部楼层
楼主的要求,应该是无解
发表于 2008-6-20 17:01:45 | 显示全部楼层
在正则设置项,[参数1][标签:标签名]这样的格式好像是不行的。

除了进行标签合并外,可以在正则设置项的左边项设置多个[参数],
右边项对应有多个参数,右边的参数可以重复多次使用或换位置的。

例如:
这个页http://www.youku.com/playlist_show/id_1898586.html

在正则设置项的左边项可设置:
id="PlaylistID_[参数]=" alt="[参数]" width=

在正则设置项的右边项可设置:
<h1>[参数2]</h1><p>http://player.youku.com/player.php/sid/[参数1]=/v.swf</p>[参数2]
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-19 13:36

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表