【求助】采集“日期”标签的 空格问题
标签定义问题开始字符:<TD bgColor=#ecf1f7><strong>添加时间(*)bgColor=#fbf3de>
结束字符:</TD>
比如两张网页:
网页1
<TD bgColor=#f1f5dc>5.002c</TD>
<TD bgColor=#ecf1f7><strong>添加时间</strong> </TD>
<TD bgColor=#fbf3de>2007-03-17</TD>
网页2
<TD bgColor=#ecf1f7><strong>添加
时间</strong> </TD>
<TD bgColor=#fbf3de>2006-12-21</TD>
采集网页1中的2007-03-17 没问题,但是网页2的2006-12-21就有问题,
怎么修改规则呢,请高手指点,谢谢! 我采集的是一个下载站,感觉规则很难编写,比如:
有些页面是:
运行环境 Win2003, WinXp, Win2000, Nt, WinVista
有些是:
运行系统 ……
怎么编写规则,才能同时适应“运行环境” 和"运行系统"
对于这样的网站,是否没有办法采集呢? 还是要看规律,有规律就可以。。 原帖由 rq204 于 2007-6-23 22:24 发表
还是要看规律,有规律就可以。。
就这规律了,版主大人教教我 start:<TD bgColor=#fbf3de>
end: </TD>
这样应可以的.. 谢谢版主,解决了。
顺便帮忙看看如何提取“版本号”
网页1
<font size='+1'>Total Commander7.0.0</font>
网页2:<font size='+1'>FlashGet5.0</font>
由于两个软件的名称一个是1,一个是2,所以很难写规则:
开始:<font size='+1'>(*) (这里有个空格)
结束:</font>
这个规则使用网页2(版本号5.0可以提取),但是对网页1,提取结果就是:“Commander7.0.0”
就差最后一个字段了,我就要大功告成了,请指点,谢谢! 自己顶,大王有方法吗 ……
有大王吗?
页:
[1]