python - 如何将记录分隔符字符转换为换行符
问题描述
您好,我正在使用这个 porpouse pyspark 我有一个包含此信息的 txt 文件
c-234r4|Julio|38|Madrida-533r2|Ana|32|Madrida-543r4|Sonia|33|Bilbaob-654r4|Jorge|23|Barcelona
如果您看到所有记录都使用记录分隔符字符连接起来(请参阅此链接)
我正在尝试这样做,但没有结果
df = spark.read.load("s3://my-bucket/txt_file/data.txt", format="csv", sep="|", inferSchema="true", encoding="UTF-8", escape='U+001E')
df.show(10, False)
错误:
Py4JJavaError: An error occurred while calling o496.load.
: java.lang.RuntimeException: escape cannot be more than one character
at org.apache.spark.sql.execution.datasources.csv.CSVOptions.getChar(CSVOptions.scala:52)
最终结果必须如下所示:
+-------+-----+---+--------------+
|_c0 |_c1 |_c2|_c3 |
+-------+-----+---+--------------+
|c-234r4|Julio|38 |Madrid |
|a-533r2|Ana |32 |Madrid |
|a-543r4|Sonia|33 |Bilbao |
|b-654r4|Jorge|23 |Barcelona |
+-------+-----+---+--------------+
测试的选项:
option-1 --> 这完全错误
option-2 --> 这将行显示为列...这是错误的
有人可以给我一个建议,我需要一个想法来解决我的实际角色吗?
我会欣赏的
谢谢
解决方案
推荐阅读
- c# - 如何在c#中搜索日期并检查它是否存在于日期时间数组中
- priority-web-sdk - priority-web-sdk:选择字段的 fieldUpdate 失败
- python - 不同应用程序的 Django 迁移
- json - 从雪花中的 JSON 数组中求和值
- c# - 计划不应接受计划时间前 1 小时
- javascript - 如何在 Springboot 应用程序中设置标头 X-Content-Type-Options “nosniff”?
- oracle - Oracle - .CSV 文件一次到多个表
- javascript - 如何使用 rxjs / angular observable 发布一个值
- opencv - 合并解压BGR通道后编译成功,但运行时出现错误:ILLEGAL OPERATION
- wordpress - 自定义帖子类别正在相互合并