这种情况怎么采啊?非常变态
本帖最后由 chenjiu 于 2009-11-11 22:20 编辑网址:http://www.ikea.com/cn/zh/catalog/products/50141719
这个商品页的价格怎么采啊。
价格前边那个变态的符号怎么处理?
有点像是¥,但是又不是¥,复制到火车头是显示的是问号。
补充一下:要求采到的结果是纯数字,不包含¥ 的。
关键的问题在于他的那个符号看起来好像是¥ ,但是实际不是¥
你们试着采一下就知道了 {:4_180:}这个可以采的啊,还很简单哦
规则模块定做,数据采集联系QQ:8708077 楼上能不能说说怎么采?
不知道你是不是试过了 ¥ 249.00
不就是这个个符号吗? rhf fp 看过了。确实不难。 采集开始区域:<span id="price1" class="priceField1">
采集结束区域:</span> 他页面中¥ 这个符号不正常
你们试着采采就知道了,我要求的结果是纯数字,不带¥ 的 我也来学习学习我也搞不定 出来的是疑问号是不是编码问题? 跟lz共同关注 使用的UTF-8的编码也还是不行,不知道他这个是什么编码 本帖最后由 kjmdiba 于 2009-11-12 14:57 编辑
火车可以识别编码, 跟编码无关.
这个符号其实是2横的那个¥(并非一横的¥) 火车自动将2横变成1横的, 所以无法读取过滤.
用正则解决(获得带小数点的数字):
<meta name="price" content=".*?(?<content>\d+?\.\d+?)" />
页:
[1]
2