首页 > 解决方案 > Pyspark 加载 UTF-8 csvs 导致 BOM 编码错误

问题描述

我有一个将 CSV(UTF-8 编码,也就是默认的 CSV 编码)文件加载到 PySpark 数据帧中的应用程序。它已经这样做了大约一年,没有任何麻烦,但突然间正在读取 BOM 作为文件的一部分(字符是 )。

将编码切换为 UTF-16 或 cp1252 似乎不起作用,而且 PySpark 似乎不支持 UTF-8-sig 编码。

最近有没有人遇到过这个问题?似乎 Excel 最近可能更新了导致此问题的某些内容。

用于读取 CSV 的代码是:

self.data = self.spark.read.csv(path=self.input_file,header=True, schema=self.schema)

标签: pythoncsvencodingutf-8pyspark

解决方案


推荐阅读