火车采集器软件交流官方论坛

 找回密码
 加入会员
搜索
火车采集器V9版免费下载火车浏览器 - 可视采集,万能群发,全自动脚本工具
查看: 2827|回复: 1

大家有没有遇到过双编码无法采集的问题?

[复制链接]
发表于 2007-12-22 22:18:17 | 显示全部楼层 |阅读模式
我尝试采集某一站,但遇到一个非常棘手的情况

该站列表页面采用的是GB2312,而内容页采用的却是UTF-8

当我设置内码的时候,选择GB2312则采集下来的内容为乱码,而当我选择UTF-8时,URL列表则无法采集
请问有什么办法解决?



解决方法:
呵呵,没想到那么快就解决了,最后发现问题原来在我

我在列表区域设置的时候在起始区域中留有中文,替换掉中文,把区域代码改成英文+数字,用UTF-8来抓取就没问题了

还是要谢谢楼下的回复

[ 本帖最后由 taikou 于 2007-12-22 22:39 编辑 ]
发表于 2007-12-22 22:36:27 | 显示全部楼层
听说过了!

我没有测试过可不可行,在采集列表和内容时用不同的编码,不管是不是乱码,采集到数据库后再转换编码!
您需要登录后才可以回帖 登录 | 加入会员

本版积分规则

QQ|手机版|Archiver|火车采集器官方站 ( 皖ICP备06000549 )

GMT+8, 2025-7-19 03:24

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表