火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 6103|回复: 11

这种情况怎么采啊?非常变态

[复制链接]
发表于 2009-11-11 18:55:19 | 显示全部楼层 |阅读模式
本帖最后由 chenjiu 于 2009-11-11 22:20 编辑

网址:http://www.ikea.com/cn/zh/catalog/products/50141719
这个商品页的价格怎么采啊。
价格前边那个变态的符号怎么处理?
有点像是¥,但是又不是¥,复制到火车头是显示的是问号。

补充一下:要求采到的结果是纯数字,不包含¥ 的。
关键的问题在于他的那个符号看起来好像是¥ ,但是实际不是¥
你们试着采一下就知道了
发表于 2009-11-11 20:01:08 | 显示全部楼层
这个可以采的啊,还很简单哦

规则模块定做,数据采集联系QQ:8708077
 楼主| 发表于 2009-11-11 20:29:10 | 显示全部楼层
楼上能不能说说怎么采?
不知道你是不是试过了
发表于 2009-11-11 21:10:20 | 显示全部楼层
¥ 249.00

不就是这个个符号吗?
发表于 2009-11-11 21:56:42 | 显示全部楼层
rhf fp 看过了。确实不难。
发表于 2009-11-11 22:07:57 | 显示全部楼层
采集开始区域:<span id="price1" class="priceField1">

采集结束区域:</span>
 楼主| 发表于 2009-11-11 22:18:21 | 显示全部楼层
他页面中¥ 这个符号不正常
你们试着采采就知道了,我要求的结果是纯数字,不带¥ 的
发表于 2009-11-11 22:48:57 | 显示全部楼层
我也来学习学习  我也搞不定 出来的是疑问号  是不是编码问题? 跟lz共同关注
 楼主| 发表于 2009-11-12 13:45:00 | 显示全部楼层
使用的UTF-8的编码也还是不行,不知道他这个是什么编码
发表于 2009-11-12 14:33:56 | 显示全部楼层
本帖最后由 kjmdiba 于 2009-11-12 14:57 编辑

火车可以识别编码, 跟编码无关.

这个符号其实是2横的那个&yen;  (并非一横的¥)   火车自动将2横变成1横的, 所以无法读取过滤.  

用正则解决(获得带小数点的数字):
<meta name="price" content=".*?(?<content>\d+?\.\d+?)" />
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-8-29 12:38

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表