|
|
我就举例简单说明下
三个标签 [标题] [内容] [时间]
[标题]标签的采集范围是:<title>和</title>
[时间]标签的采集用的是通过自定义采集系统时间
[内容]标签的采集,比如我用正则采集 <table(*)>[参数]</table>这里面的数据 [参数1]
现在我想要实现的是:[内容]标签采集到的数据是 [参数1]+[时间]
例如 网页源码能够采集到的内容是“我是谁。”,采集到的系统时间是“2008-6-8 21:36:21”
我想采集到并且输出的时候实现的内容是“我是谁。2008-6-8 21:36:21”
这个如何写规则,正则如何实现
(补充:首先感谢下楼这位仁兄提出这种解决办法,但是,这种解决办法有点治标不治本,比如,我内容标签是循环匹配的...我想每个内容后面都加入这个时间标签,,这又如何是好?更或者每个内容后面加入的不是时间标签而是随机数字,那如何使内容后面跟的这随机数字也不重复?现在只要能实现每个内容后面能加入固定字符就可以了,并且这个固定字符是采集到的字符,而不是在全局设置里面设置的分隔符,万分感谢!)
[ 本帖最后由 jevenz 于 2008-6-12 21:21 编辑 ] |
|