首页 > 技术文章 > unicode编码和utf8编码的区别

thomson-fred 2018-10-10 09:06 原文

编码格式不同在数据的传输和显示会有很大的影响。最近在使用的过程中发现一些网络文件

传输的编码格式问题,会影响文件的正常传输,于是查看了一下网上的资料,自己也写一篇

小总结。

 

uicode是万国码,用16位二进制(65536个编码)表示字符串,几乎包括了所有语种的文字

UTF -8 全称8-bit Unicode Transformation Format 是一种编码格式,另外还有UTF-16,UTF-32

分别用8位,16位和32位来表示unicode字符 unicode转换成utf-8是遵循一定的原则的,了解即可。

下面是一张unicode 和 utf-8的转换关系图

简单来说是可以把不同位数的unicode码(最大31位)拆分成0-6个的8位二进制字节,即所谓的补码操作。

 

目前基本所有语言都是支持将unicode码转换为utf-8格式的,而且utf-8兼容以前的ASCII码,所以utf-8在编程

语言中很流行,逐渐成为电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。当要定义字符集

时,一般采用utf-8,可以避免乱码问题。

推荐阅读