通过Xpath表达式抓取网页内容的时候内容是数字和字母的组合怎么办

xsz2008 · 发表于 2013-5-2 14:19:03

我在采集一个网站的时候，我通过前后截取内容的时候，找不到内容，内容是一大堆大写字母和数字的组合。
我截取的代码如下：
</strong>
<div id="docDeliveddate" align="center">2013-05-02</div>
<div id="docContent"><object id="DRMContent" style="LEFT: 0px; TOP: 0px" codebase="http://www.drcnet.com.cn/Fish_DLL/DrcnetDRM.dll#version=1,1,0,2" height="900" width="100%" classid="CLSID:79B0CAAA-35B4-4DB8-ADAE-19693F1A4DFB" viewastext=""> <param name='param1' value='88E6DC38792CC832AC3BEDBBD5741DC1BD672C1FB130AF4E54069AC1C56903C8D6442797CC90035FB3CC76FA050F88C31173B00FE0BAB23F0540B5A9F973E0BEE32B52784B8BEDF66BA56BD3F93A798C6AD2E7EEB8C4C692814BE663A670B0。。。。。。。A7E4402DF216470E78A1DE56269FF02DDB40044376636A02AC5296EC1D79A563584E6266F9C148520E2FB5C478246B78233B6C133B17CB0B2712C8AC5FA5C58338E9C4171EE87B12B6157292E4F59740828E0657A75D7687B83F1A85EBD377968210307185DD91E0669797EE8D07CE635BF11102EC36BBC8497986914384F5AF21629196B60833528B6BB4'> <param name='param2' value='0'>
通过Xpath得到的结果也是这样，我是新手，那位能指点一下

xsz2008 · 发表于 2013-5-2 14:20:54

自己顶起来，找人回答我的问题

xsz2008 · 发表于 2013-5-2 14:40:01

焦急等待

kuhabe · 发表于 2013-5-3 10:49:46

xsz2008 发表于 2013-5-2 14:40
焦急等待

用前后截取模式，正则参数模块都可以设置标签，没必要通过Xpath表达式。。而且个人认为，Xpath表达式是最不稳定的一种写法。

xsz2008 · 发表于 2013-5-4 20:11:32

kuhabe 发表于 2013-5-3 10:49
用前后截取模式，正则参数模块都可以设置标签，没必要通过Xpath表达式。。而且个人认为，Xpath表达式是 ...

问题是，是不是采集回来，发表网站后，也是一团数字和字母组合的内容？

帐号		自动登录	找回密码
密码			加入会员

通过Xpath表达式抓取网页内容的时候 内容是数字和字母的组合 怎么办

浏览过的版块

通过Xpath表达式抓取网页内容的时候内容是数字和字母的组合怎么办