python - Pyspark 加载 UTF-8 csvs 导致 BOM 编码错误
问题描述
我有一个将 CSV(UTF-8 编码,也就是默认的 CSV 编码)文件加载到 PySpark 数据帧中的应用程序。它已经这样做了大约一年,没有任何麻烦,但突然间正在读取 BOM 作为文件的一部分(字符是 )。
将编码切换为 UTF-16 或 cp1252 似乎不起作用,而且 PySpark 似乎不支持 UTF-8-sig 编码。
最近有没有人遇到过这个问题?似乎 Excel 最近可能更新了导致此问题的某些内容。
用于读取 CSV 的代码是:
self.data = self.spark.read.csv(path=self.input_file,header=True, schema=self.schema)
解决方案
推荐阅读
- python - 这个打印语法是如何工作的?print('某事', ['a', 'list'][boolean])
- javascript - 如何解释 chrome devtool 中的“渲染、绘画、加载和脚本”性能
- reactjs - 显式类型检查后打字稿不可分配错误
- rust - 如何将生命周期参数添加到闭包而不返回引用
- jquery - 如何纠正字体调整按钮对齐
- reactjs - 我们如何动态加载由 webpack 配置的 entry 属性生成的 webpack 模块/包
- python - 使用 Python 将大型 CSV 文件导入 MySQL
- c# - 如何在 C# Selenium 中点击订阅 YouTube 按钮
- c++ - 我输入的任何数组大小超过 36603 时都会返回“堆栈溢出”错误。如何使字符串能够捕获整个 .txt 文件?
- java - SynchronousQueue 中的 NullPointerException