scala - 使用 Scala Spark 限制行数
问题描述
我有一个看起来正确的数据集。我可以看到我的所有行都正确排序,如下所示:
df1.orderBy($"count".desc)
df1.show()
但是当我尝试添加这样的限制时:
df1.orderBy($"count".desc).limit(5)
df1.show()
我仍然得到所有的行。我想我正确地遵循了文档...... https://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/Dataset.html#limit(n:Int):org .apache.spark.sql.Dataset[T]
那么我该如何限制呢?
解决方案
数据集方法返回一个新的数据集对象,它们不会改变现有的对象。所以你需要显示结果:
df2 = df1.orderBy($"count".desc).limit(5)
df2.show()
推荐阅读
- nginx - Nginx 代理使用正则表达式将 mydomain.com/12345/ 传递到 12345.serverdomain.com
- sql - 在VB中使用IF语句和数据库材料
- python-3.x - 替换熊猫数据框中的特殊字符
- c# - 为什么我在使用 Entity Framework 和 ASP.NET Core 时收到此错误“System.InvalidOperationException”?
- c# - 如何使用 AddOutParameter 从存储过程中获取输出参数
- mysql - 外键索引
- javascript - 单击 x 可编辑和空 td
- cordova - 如何将 Cordova 服务脚本设置为使用 http 而不是 https?
- python - 如何让 terraform 在 Kali Linux 上使用 runcmd?
- azure - 多次出现 count.index 的 Azure 多区域部署错误