首页 > 解决方案 > Spark过滤掉列并使用剩余列创建dataFrame并使用过滤列创建dataFrame

问题描述

我是 Spark 的新手。

我已将 CSV 文件加载到 Spark DataFrame 中,例如 OriginalDF

现在我想 1.从中过滤掉一些列并创建一个原始DF的新数据框 2.从提取的列中创建一个数据框

如何在 spark scala 中创建这两个数据框?

标签: scalaapache-sparkapache-spark-sql

解决方案


使用 select,您可以选择所需的列。

val df2 = OriginalDF.select($"col1",$"col2",$"col3")

使用过滤器,您应该能够过滤行。

val df3 = OriginalDF.where($"col1" < 10)

另一种过滤数据的方法是使用 where。filter 和 where 都是同义词,因此您可以互换使用它们。

val df3 = OriginalDF.filter($"col1" < 10)

注意 select 和 filter 会返回一个新的数据框作为结果。


推荐阅读