首页 > 解决方案 > 读入火花数据框时如何从csv文件中删除列

问题描述

我正在尝试从 csv 文件创建一个 spark 数据框,但是我不想在数据框中包含来自原始数据的特定列。在设置架构或读取 csv 文件时这可能吗?

标签: csvpysparkapache-spark-sqlhdfs

解决方案


@Manu Valdés的drop答案是最好的方法,这里是代码pyspark

假设我们有file.csv3 列:

col1;col2;col3
val1;val2;val3
val4;val5;val6

现在读取 csv 文件sqlContext

df = sqlContext.read.format('csv').options(header='true', delimiter=';').load('/FileStore/file.csv')

df.printSchema()

root 
 |-- col1: string (nullable = true)
 |-- col2: string (nullable = true)
 |-- col3: string (nullable = true)

掉落col2

df2 = df.drop('col2')
df2.printSchema()

root 
 |-- col1: string (nullable = true)
 |-- col3: string (nullable = true)

推荐阅读