freeliu 发表于 2010-6-21 09:01:20

采集到的内容整理下

在论坛上采集到如下内容:

支持!作者:59.52.155.*2010-6-14 08:44:30支持!作者:115.53.29.*发表时间:2010-06-18 17:42:2943支持!作者:115.53.29.*发表时间:2010-06-18 17:43:1544支持楼主!作者:115.53.29.*发表时间:2010-06-18 18:20:1745

但是想转换为有规律的。 整理成如下表格形式 csv 文件或者txt 文件都行

支持! 59.52.155.*    2010-6-1408:44:30

支持! 115.53.29.*2010-06-18 17:42:2943

支持! 115.53.29.*2010-06-18 17:43:1544

支持楼主! 115.53.29.* 2010-06-18 18:20:1745


火车头应该可以做到吧?新手入门,请指教!感谢万能的 坛子!!

zjyk1984 发表于 2010-6-21 10:00:10

可以做的{:4_180:}

xiongyujie37 发表于 2010-6-21 10:34:38

本帖最后由 xiongyujie37 于 2010-6-21 10:36 编辑

正则

支持[参数]支持

支持[参数1]

然后设置该标签循环匹配

xiongyujie37 发表于 2010-6-21 10:35:43

你最好发原帖地址或者 源码

这样提取会不准确的

freeliu 发表于 2010-6-21 11:32:39

http://guba.eastmoney.com/look,600028,10003175422.html

谢谢!
我现在已经采集到 了如下的形式。 循环采集的。楼层采集不到

作者: 114.81.143.*
楼层:
Time: 2010-6-12 11:00:16
内容: 泰山石油关联交易被否决!必定内涵重大的秘密。
PageUrl: http://guba.eastmoney.com/look,600028,10003175422.html

能简单写个正则表示么? 谢谢!

freeliu 发表于 2010-6-21 11:38:10

股票代码            帖子编号             帖子楼层        作者        发表时间        内容
600028                10003186221        1        ***        ***        ***
600028                10003186221        2                       
600028                10003186221        3                       
600028                10003186221        4                       
600028                10003186221        5                       
600028                10003186221        6                       
600028                10003186221        7                       
600028                10003186221        8                       
600028                10003186221        9                       
600028                10003186221        10                       
600028                10003186221        11

freeliu 发表于 2010-6-21 11:39:01

输出的TXT 格式能这样整理么? 好奇的问。好像没有这样的设定功能呢

sth2007 发表于 2010-6-22 17:47:45

lz我帮你解决:QQ=97083966
页: [1]
查看完整版本: 采集到的内容整理下