mysql - utf8_unicode_ci 和 utf8mb4_0900_ai_ci 有什么区别
问题描述
utf8mb4_0900_ai_ci
mysql和数据库文本编码有什么区别utf8_unicode_ci
(特别是在性能方面)?
更新:
utf8mb4_unicode_ci 和 utf8mb4_0900_ai_ci 有类似的区别吗?
解决方案
- 编码是一样的。也就是说,字节看起来是一样的。
- 字符集不同。utf8mb4 有更多的字符。
- 排序规则(如何进行比较)是不同的。
- 性能是不同的,但它并不重要。
utf8_unicode_ci
表示CHARACTER SET utf8
,它仅包括 1、2 和 3 字节的 UTF-8 字符。因此它排除了大多数表情符号和一些汉字。
utf8mb4_unicode_ci
暗示4-byteCHARACTER SET utf8mb4
是对应的。COLLATION
CHARACTER SET utf8mb4
Unicode 组织多年来一直在发展规范。以下是从其“版本”到 MySQL 排序规则的映射:
4.0 _unicode_
5.20 _unicode_520_
9.0 _0900_
大多数差异将出现在大多数人从未遇到过的领域。一个例子:在某些时候,一项更改允许以某种方式区分和排序表情符号。
后缀(MySQL 文档):
_bin -- just compare the bits; don't consider case folding, accents, etc
_ci -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)
表现:
_bin -- simple, fast
_general_ci -- fails to compare multiple letters; eg ss=ß, so somewhat fast
... -- slower
_900_ -- (8.0) much faster because of a rewrite
然而: 排序的速度通常是查询中性能问题中最少的。 INDEXes
, JOINs
, 子查询、表扫描等对性能更为关键。
推荐阅读
- android - Android 数据绑定默认变量值
- swift - 为什么我在 IOS 模拟器上运行测试时我的广告没有展示?
- reactjs - 如何从对象数组中识别组件名称
- system.reactive - 重新实例化对象激射事件时可观察到的 FromEventPattern
- c# - 如何创建要在 C# 中重用的函数
- c++ - 在编译时生成函数
- android - Android资源链接失败,顺序混淆
- regex - 用于选择以“ing”结尾的单词的正则表达式,除非
- sql - 在 Teradata 中获取 EXPAND ON 的所有月份
- javascript - HTML, CSS Chatbox 分别使用百分比对齐所有元素