首页 > 解决方案 > 从 csv 文件加载单列

问题描述

我有一个csv包含大量列的文件。我想使用spark.

我知道我们可以使用 select 语句来过滤列。但是我想要的是,在进行read操作本身时,它应该只加载一列。

这样,我应该能够避免其他列使用额外的内存。有没有办法做到这一点?

标签: apache-sparkapache-spark-sql

解决方案


Spark 将加载完整的文件并解析列。正如您所提到的,您可以使用 select 来限制数据框中的列,因此数据框将只有一列。


推荐阅读