首页 > 解决方案 > Pyspark - 如何处理源文件中的'^M'字符

问题描述

我正在从源文件中读取数据,并且源文件包含这个字符:^M。正因为如此,spark 将走向新的生产线,这是我不想要的。我该如何处理?

样本数据 :

I | 00683041  |000000000807698|OKC 9800            _____^M                               |0001-01-01|N|1D11|XMS530|2004-03-17|0001-01-01|     |02|00|00|09    |N|0001-01-01|N|0001-01-01|0001-01-01|9998

我正在使用下面的 API 来阅读代码:

DF2 = spark.read.option("sep", '|').format("csv").load("file.txt")

 682907 I | 00682907  |000000000807564|OKC 6800            _____^M 
                              |0001-01-01|N|1D11|XMS544|2004-03-10|0001-01-01|     |02|00|00|09    |N|        0001-01-01|N|0001-01-01|0001-01-01|9998

标签: apache-sparkpysparkpyspark-dataframes

解决方案


推荐阅读