首页 > 解决方案 > Spark 中的 CSV 文件解析格式不正确

问题描述

我是数据科学的新手,我正在使用带有 PySpark API 的 Spark。我想创建一个 .CSV 文件的 DataFrame。当我这样做时,列将移动到一个单列,如下所示。

我用来创建 CSV 文件的 DataFrame 的命令是

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("MyFirstCSVLoad").getOrCreate()

df = spark.read.csv("order.csv")

df.Show()

CSV 数据

谁能帮我解决这个问题。

CSV 文件的链接 https://mega.nz/file/opQFxQbJ#Csjk-CtAkb1CwB6F3hULk3xJxkAOdPyAMMCFjI30MEk

标签: csvapache-sparkpysparkjupyter-notebook

解决方案


我查看了您的数据,您的分隔符似乎是“;” 而不是逗号。在这种情况下,当您阅读 CSV 文件时,您应该指定分隔符。利用:

spark.read.option("delimiter", ";").csv(fileName)


推荐阅读