首页 > 解决方案 > 如何在读取 pyspark 数据框中的 csv 文件时读取选定的列?

问题描述

我试图在读取 csv 文件时读取选定的列。假设 csv 文件有 10 列,但我只想读取 5 列。有没有办法做到这一点?

我们可以使用 Pandas,usecols但 pyspark 中是否还有可用的选项?

熊猫:

df=pd.read_csv(file_path,usecols=[1,2],index_col=0)

派斯帕克:

?

标签: csvpysparkapache-spark-sqlpyspark-dataframes

解决方案


如果要读取前 5 列,可以在读取整个 CSV 文件后选择前 5 列:

df = spark.read.csv(file_path, header=True)
df2 = df.select(df.columns[:5])

推荐阅读