火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2884|回复: 4

通过Xpath表达式抓取网页内容的时候 内容是数字和字母的组合 怎么办

[复制链接]
发表于 2013-5-2 14:19:03 | 显示全部楼层 |阅读模式
我在采集一个网站的时候,我通过前后截取内容的时候,找不到内容,内容是一大堆大写字母和数字的组合。
我截取的代码如下:
</strong>
                    <div id="docDeliveddate" align="center">2013-05-02</div>
                    <div id="docContent"><object id="DRMContent" style="LEFT: 0px; TOP: 0px" codebase="http://www.drcnet.com.cn/Fish_DLL/DrcnetDRM.dll#version=1,1,0,2" height="900" width="100%" classid="CLSID:79B0CAAA-35B4-4DB8-ADAE-19693F1A4DFB" viewastext="">        <param name='param1' value='88E6DC38792CC832AC3BEDBBD5741DC1BD672C1FB130AF4E54069AC1C56903C8D6442797CC90035FB3CC76FA050F88C31173B00FE0BAB23F0540B5A9F973E0BEE32B52784B8BEDF66BA56BD3F93A798C6AD2E7EEB8C4C692814BE663A670B0。。。。。。。A7E4402DF216470E78A1DE56269FF02DDB40044376636A02AC5296EC1D79A563584E6266F9C148520E2FB5C478246B78233B6C133B17CB0B2712C8AC5FA5C58338E9C4171EE87B12B6157292E4F59740828E0657A75D7687B83F1A85EBD377968210307185DD91E0669797EE8D07CE635BF11102EC36BBC8497986914384F5AF21629196B60833528B6BB4'>       <param name='param2' value='0'>
通过Xpath得到的结果也是这样,我是新手,那位能指点一下
 楼主| 发表于 2013-5-2 14:20:54 | 显示全部楼层
自己顶起来,找人回答我的问题
 楼主| 发表于 2013-5-2 14:40:01 | 显示全部楼层
焦急等待
发表于 2013-5-3 10:49:46 | 显示全部楼层
xsz2008 发表于 2013-5-2 14:40
焦急等待

用前后截取模式,正则参数模块 都可以设置标签,没必要通过Xpath表达式。。而且 个人认为,Xpath表达式 是最不稳定的一种写法。
 楼主| 发表于 2013-5-4 20:11:32 | 显示全部楼层
kuhabe 发表于 2013-5-3 10:49
用前后截取模式,正则参数模块 都可以设置标签,没必要通过Xpath表达式。。而且 个人认为,Xpath表达式 是 ...

问题是,是不是采集回来,发表网站后,也是一团数字和字母组合的内容?
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2026-4-21 08:26

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表