chenjiu 发表于 2009-11-11 18:55:19

这种情况怎么采啊?非常变态

本帖最后由 chenjiu 于 2009-11-11 22:20 编辑

网址:http://www.ikea.com/cn/zh/catalog/products/50141719
这个商品页的价格怎么采啊。
价格前边那个变态的符号怎么处理?
有点像是¥,但是又不是¥,复制到火车头是显示的是问号。

补充一下:要求采到的结果是纯数字,不包含¥ 的。
关键的问题在于他的那个符号看起来好像是¥ ,但是实际不是¥
你们试着采一下就知道了

zjyk1984 发表于 2009-11-11 20:01:08

{:4_180:}这个可以采的啊,还很简单哦

规则模块定做,数据采集联系QQ:8708077

chenjiu 发表于 2009-11-11 20:29:10

楼上能不能说说怎么采?
不知道你是不是试过了

sunny22 发表于 2009-11-11 21:10:20

¥ 249.00

不就是这个个符号吗?

论坛政要 发表于 2009-11-11 21:56:42

rhf fp 看过了。确实不难。

风吼 发表于 2009-11-11 22:07:57

采集开始区域:<span id="price1" class="priceField1">

采集结束区域:</span>

chenjiu 发表于 2009-11-11 22:18:21

他页面中¥ 这个符号不正常
你们试着采采就知道了,我要求的结果是纯数字,不带¥ 的

nothing 发表于 2009-11-11 22:48:57

我也来学习学习我也搞不定 出来的是疑问号是不是编码问题? 跟lz共同关注

chenjiu 发表于 2009-11-12 13:45:00

使用的UTF-8的编码也还是不行,不知道他这个是什么编码

kjmdiba 发表于 2009-11-12 14:33:56

本帖最后由 kjmdiba 于 2009-11-12 14:57 编辑

火车可以识别编码, 跟编码无关.

这个符号其实是2横的那个&yen;(并非一横的¥)   火车自动将2横变成1横的, 所以无法读取过滤.

用正则解决(获得带小数点的数字):
<meta name="price" content=".*?(?<content>\d+?\.\d+?)" />
页: [1] 2
查看完整版本: 这种情况怎么采啊?非常变态