python-3.x - Pyspark 数据框:从 csv 加载,然后删除第一行
问题描述
我能够将 csv 文件从 Azure datalake 加载到 pyspark 数据框中。如何删除第一行并将第二行作为我的标题?
我已经看到了一些 RDD 解决方案。但我无法加载文件,并且使用以下代码出现错误,因为“RDD 为空”
items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv")
firstRow=data.first()
因此,我更喜欢使用标准火花加载,如下所示。我可以显示数据框内容。我必须删除或删除第一行并将第二行作为标题。谢谢。
items= spark.read.format("csv").load(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv", header=True)
解决方案
推荐阅读
- scala - 如何从 Scala 中的向量创建 HashMap
- sql-server - SQL 性能问题:选择 N 行直到找到不同的 200 个客户
- laravel - 拉拉维尔 | 测试
- python - 带有前导/尾随斜杠且不带斜杠的路线
- php - 使用php根据用户输入仅匹配数据库中字段的某些部分从数据库中获取所有数据
- python - 使用 __init__.py 修改 sys 路径是个好主意吗?
- hana - 将 XML 数据从源复制到 SAP HANA 表
- linux - 在 bash 中将文本附加到具有模式匹配名称的文件
- c# - 您可以从 C# 控制台应用程序写入 CRM 365 跟踪日志吗?
- unity3d - 我无法从父对象中选择单个子对象