首页 > 解决方案 > 使用 Scala Spark 限制行数

问题描述

我有一个看起来正确的数据集。我可以看到我的所有行都正确排序,如下所示:

df1.orderBy($"count".desc)
df1.show()

但是当我尝试添加这样的限制时:

df1.orderBy($"count".desc).limit(5)
df1.show()

我仍然得到所有的行。我想我正确地遵循了文档...... https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/Dataset.html#limit(n:Int):org .apache.spark.sql.Dataset[T]

那么我该如何限制呢?

标签: scalaapache-spark

解决方案


数据集方法返回一个新的数据集对象,它们不会改变现有的对象。所以你需要显示结果:

df2 = df1.orderBy($"count".desc).limit(5)
df2.show()

推荐阅读