大家有没有遇到过双编码无法采集的问题?
我尝试采集某一站,但遇到一个非常棘手的情况该站列表页面采用的是GB2312,而内容页采用的却是UTF-8
当我设置内码的时候,选择GB2312则采集下来的内容为乱码,而当我选择UTF-8时,URL列表则无法采集
请问有什么办法解决?
解决方法:
呵呵,没想到那么快就解决了,最后发现问题原来在我
我在列表区域设置的时候在起始区域中留有中文,替换掉中文,把区域代码改成英文+数字,用UTF-8来抓取就没问题了
还是要谢谢楼下的回复
[ 本帖最后由 taikou 于 2007-12-22 22:39 编辑 ] 听说过了!
我没有测试过可不可行,在采集列表和内容时用不同的编码,不管是不是乱码,采集到数据库后再转换编码!
页:
[1]