首页 > 技术文章 > hive on spark 读取中文乱码

wdh01 2022-02-17 10:23 原文

问题描述

集群默认计算引擎是 hive ,这两天自己试了一下 hive on spark 发现一个奇怪现象,首先 hive 引擎中文做简单查询或者聚合查询都正常,使用 spark 引擎简单查一个表的中文字段也没事,但是只要对 中文字段进行 group by 操作就乱码了

问题解决

在开启 spark session 后 加两个设置就好了

set spark.executor.extraJavaOptions='-Dfile.encoding=utf-8';
set spark.driver.extraJavaOptions='-Dfile.encoding=utf-8' ;

再次测试 spark session 内执行有关中文的任何查询不再出现乱码问题。

推荐阅读