通过Xpath表达式抓取网页内容的时候 内容是数字和字母的组合 怎么办
我在采集一个网站的时候,我通过前后截取内容的时候,找不到内容,内容是一大堆大写字母和数字的组合。我截取的代码如下:
</strong>
<div id="docDeliveddate" align="center">2013-05-02</div>
<div id="docContent"><object id="DRMContent" style="LEFT: 0px; TOP: 0px" codebase="http://www.drcnet.com.cn/Fish_DLL/DrcnetDRM.dll#version=1,1,0,2" height="900" width="100%" classid="CLSID:79B0CAAA-35B4-4DB8-ADAE-19693F1A4DFB" viewastext=""> <param name='param1' value='88E6DC38792CC832AC3BEDBBD5741DC1BD672C1FB130AF4E54069AC1C56903C8D6442797CC90035FB3CC76FA050F88C31173B00FE0BAB23F0540B5A9F973E0BEE32B52784B8BEDF66BA56BD3F93A798C6AD2E7EEB8C4C692814BE663A670B0。。。。。。。A7E4402DF216470E78A1DE56269FF02DDB40044376636A02AC5296EC1D79A563584E6266F9C148520E2FB5C478246B78233B6C133B17CB0B2712C8AC5FA5C58338E9C4171EE87B12B6157292E4F59740828E0657A75D7687B83F1A85EBD377968210307185DD91E0669797EE8D07CE635BF11102EC36BBC8497986914384F5AF21629196B60833528B6BB4'> <param name='param2' value='0'>
通过Xpath得到的结果也是这样,我是新手,那位能指点一下 自己顶起来,找人回答我的问题 焦急等待:(:lol:(:hug: xsz2008 发表于 2013-5-2 14:40 static/image/common/back.gif
焦急等待
用前后截取模式,正则参数模块 都可以设置标签,没必要通过Xpath表达式。。而且 个人认为,Xpath表达式 是最不稳定的一种写法。 kuhabe 发表于 2013-5-3 10:49 static/image/common/back.gif
用前后截取模式,正则参数模块 都可以设置标签,没必要通过Xpath表达式。。而且 个人认为,Xpath表达式 是 ...
问题是,是不是采集回来,发表网站后,也是一团数字和字母组合的内容?
页:
[1]