采集到的内容整理下
在论坛上采集到如下内容:支持!作者:59.52.155.*2010-6-14 08:44:30支持!作者:115.53.29.*发表时间:2010-06-18 17:42:2943支持!作者:115.53.29.*发表时间:2010-06-18 17:43:1544支持楼主!作者:115.53.29.*发表时间:2010-06-18 18:20:1745
但是想转换为有规律的。 整理成如下表格形式 csv 文件或者txt 文件都行
支持! 59.52.155.* 2010-6-1408:44:30
支持! 115.53.29.*2010-06-18 17:42:2943
支持! 115.53.29.*2010-06-18 17:43:1544
支持楼主! 115.53.29.* 2010-06-18 18:20:1745
火车头应该可以做到吧?新手入门,请指教!感谢万能的 坛子!! 可以做的{:4_180:} 本帖最后由 xiongyujie37 于 2010-6-21 10:36 编辑
正则
支持[参数]支持
支持[参数1]
然后设置该标签循环匹配 你最好发原帖地址或者 源码
这样提取会不准确的 http://guba.eastmoney.com/look,600028,10003175422.html
谢谢!
我现在已经采集到 了如下的形式。 循环采集的。楼层采集不到
作者: 114.81.143.*
楼层:
Time: 2010-6-12 11:00:16
内容: 泰山石油关联交易被否决!必定内涵重大的秘密。
PageUrl: http://guba.eastmoney.com/look,600028,10003175422.html
能简单写个正则表示么? 谢谢! 股票代码 帖子编号 帖子楼层 作者 发表时间 内容
600028 10003186221 1 *** *** ***
600028 10003186221 2
600028 10003186221 3
600028 10003186221 4
600028 10003186221 5
600028 10003186221 6
600028 10003186221 7
600028 10003186221 8
600028 10003186221 9
600028 10003186221 10
600028 10003186221 11 输出的TXT 格式能这样整理么? 好奇的问。好像没有这样的设定功能呢 lz我帮你解决:QQ=97083966
页:
[1]