csv - Spark 中的 CSV 文件解析格式不正确
问题描述
我是数据科学的新手,我正在使用带有 PySpark API 的 Spark。我想创建一个 .CSV 文件的 DataFrame。当我这样做时,列将移动到一个单列,如下所示。
我用来创建 CSV 文件的 DataFrame 的命令是
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MyFirstCSVLoad").getOrCreate()
df = spark.read.csv("order.csv")
df.Show()
谁能帮我解决这个问题。
CSV 文件的链接 https://mega.nz/file/opQFxQbJ#Csjk-CtAkb1CwB6F3hULk3xJxkAOdPyAMMCFjI30MEk
解决方案
我查看了您的数据,您的分隔符似乎是“;” 而不是逗号。在这种情况下,当您阅读 CSV 文件时,您应该指定分隔符。利用:
spark.read.option("delimiter", ";").csv(fileName)
推荐阅读
- javascript - 如何在 Google Sheet App Script 中使用 JS 库?
- mysql - Excel VBA:ODBC 驱动程序管理器]未找到数据源名称且未指定默认驱动程序
- bash - ${TF_CFLAGS[@]} 的含义
- mysql - 在 Mac OSX 上安装 mysql2 0.3.17 时出错 - “Gem::Ext::BuildError: 无法构建 gem 本机扩展。”
- html - 当我缩小屏幕宽度时,为什么我的 div 定位(绝对)在图像上滑动?
- d3.js - d3js - 如何覆盖第 n 个位置的文本
- hibernate - 具有多个 MappedSuperclass 的 JPA 2.1 和 Hibernate
- statsmodels - satatsmodels 中的 VAR 模型(自回归)
- jquery - 数据表按键值定位行。检索内容并删除行
- kubernetes - 如何将 kubelet 端口映射到 POD