博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Java字符编码问题
阅读量:6112 次
发布时间:2019-06-21

本文共 2344 字,大约阅读时间需要 7 分钟。

今天研究了一下,记录下来

中间用的是redis,可以使用任意其他的io替代,一样的

 

Test1

        String s1 = "我要测试";

        String s2 = "I want to test";

        String s3 = "경쟁력, 네이버";

        redis.lpush("testencode", s1);

        redis.lpush("testencode", s2);

        redis.lpush("testencode", s3);

        System.out.println(redis.lpop("testencode"));

        System.out.println(redis.lpop("testencode"));

        System.out.println(redis.lpop("testencode"));

结果:全部正确

注解:Java内部也是unicode,所以如果发送和接受端都是Java写的,无需任何转码(前提是发送和接受端的默认编码一致)

        Java在往I/O发送和从I/O接受的时候会默认转码,一般用系统默认的编码,貌似文档本身的编码格式优先级更高

        所以这里发送到时候转成utf-8,接受时再从utf-8转回unicode,所以没有问题

 

Test2

        String s1 = "我要测试";

        byte[] key = "testencode".getBytes();

        byte[] b1 =  s1.getBytes("gb2312"); //自己转码,而非默认转码

        redis.lpush(key, b1);

        System.out.println(new String(redis.lpop(key),"gb2312"));

        //System.out.println(new String(redis.lpop(key)));

结果:正确

注解:由于发送的时候已经转成gb2312,所以接受的时候,必须转回来,如果用默认的(注释掉部分)就会转成默认编码utf-8,就会乱码

 

前面的转码都是在知道原编码的情况下,但有时在接收端无法知道原来的编码,这是就需要detect编码

使用JCharDet,这个的接口写的不好,蛮难用的

参考,

我改了一下,

import org.mozilla.intl.chardet.nsDetector;

import org.mozilla.intl.chardet.nsICharsetDetectionObserver;
import org.mozilla.intl.chardet.nsPSMDetector;

public class CharsetDetector{

    private boolean found = false;
    private String result;
    private int lang = nsPSMDetector.ALL;

    public String[] detectCharset(byte[] bytes) throws IOException

    {
        String[] prob;
        // Initalize the nsDetector() ;
        nsDetector det = new nsDetector(lang);
        // Set an observer...
        // The Notify() will be called when a matching charset is found.
        det.Init(
            new nsICharsetDetectionObserver(){   
                public void Notify(String charset)
                {
                    found = true;
                    result = charset;
                }
            });
        int len = bytes.length;
        boolean isAscii = true;
        if (isAscii){
            isAscii = det.isAscii(bytes, len);
        }
        // DoIt if non-ascii and not done yet.
        if (!isAscii){
            if (det.DoIt(bytes, len, false));                  
        }
        det.DataEnd();
        if (isAscii){
            found = true;
            prob = new String[] {"ASCII"};
        } else if (found){
            prob = new String[] {result};
        } else {
            prob = det.getProbableCharsets();
        }
        return prob;
    }

    public String[] detectChineseCharset(byte[] bytes) throws IOException

    {
        try{
            lang = nsPSMDetector.CHINESE;
            return detectCharset(bytes);
        } catch (IOException e){
            throw e;
        }
    }

使用,

CharsetDetector cd = new CharsetDetector();

String[] probableSet = {};

try {

     probableSet = cd.detectChineseCharset(b1);
} catch (IOException e) {
     e.printStackTrace();
}
for (String charset : probableSet)
{
    System.out.println(charset);
}

转载地址:http://wwcka.baihongyu.com/

你可能感兴趣的文章
RecycleView设置顶部分割线(记录一个坑)
查看>>
【设计模式系列】单例模式的7种写法
查看>>
汉字转拼音 (转)
查看>>
Machine Learning Techniques -6-Support Vector Regression
查看>>
会计基础_001
查看>>
Cordova 开发环境搭建及创建第一个app
查看>>
ajax请求拿到多条数据拼接显示在页面中
查看>>
小程序: 查看正在写的页面
查看>>
dedecms生成文档数据库崩溃 mysql daemon failed to start
查看>>
Linux的50个基本命令
查看>>
Objective-C中创建单例方法的步骤
查看>>
[转]无法安装MVC3,一直卡在vs10-kb2483190
查看>>
Codeforces 520B:Two Buttons(思维,好题)
查看>>
web框架-(二)Django基础
查看>>
Jenkins持续集成环境部署
查看>>
emoji等表情符号存mysql的方法
查看>>
Excel到R中的日期转换
查看>>
检查磁盘利用率并且定期发送告警邮件
查看>>
MWeb 1.4 新功能介绍二:静态博客功能增强
查看>>
linux文本模式和文本替换功能
查看>>