apache-spark - Pyspark - 如何处理源文件中的'^M'字符
问题描述
我正在从源文件中读取数据,并且源文件包含这个字符:^M。正因为如此,spark 将走向新的生产线,这是我不想要的。我该如何处理?
样本数据 :
I | 00683041 |000000000807698|OKC 9800 _____^M |0001-01-01|N|1D11|XMS530|2004-03-17|0001-01-01| |02|00|00|09 |N|0001-01-01|N|0001-01-01|0001-01-01|9998
我正在使用下面的 API 来阅读代码:
DF2 = spark.read.option("sep", '|').format("csv").load("file.txt")
682907 I | 00682907 |000000000807564|OKC 6800 _____^M
|0001-01-01|N|1D11|XMS544|2004-03-10|0001-01-01| |02|00|00|09 |N| 0001-01-01|N|0001-01-01|0001-01-01|9998
解决方案
推荐阅读
- reactjs - React 测试渲染器 Act 函数
- three.js - Raycast 找到与 z 轴相交为零的点
- ajax - 如何使用javascript在div内显示ajax成功响应
- c# - UWP - 这个有界属性是否在 UI 上下文上运行?
- javascript - React 避免重新渲染 useState
- filter - 过滤 Bigquery 中的重复项
- vue.js - 无法捕获 Telerik vuejs daterangepicker 更改事件
- mongodb - 如何解决 Houdini 中的 Pymongo 运行时错误 R6034
- javascript - 使用 javascript 动态更改 css 类属性
- go - 并行启动 Kafka 消费者和 HTTP 服务器?