scala - 使用 Scala Spark 限制行数

我有一个看起来正确的数据集。我可以看到我的所有行都正确排序，如下所示：

df1.orderBy($"count".desc)
df1.show()

但是当我尝试添加这样的限制时：

df1.orderBy($"count".desc).limit(5)
df1.show()

那么我该如何限制呢？

标签： scalaapache-spark

数据集方法返回一个新的数据集对象，它们不会改变现有的对象。所以你需要显示结果：

df2 = df1.orderBy($"count".desc).limit(5)
df2.show()