首页 > 解决方案 > 减少我在 scala 中处理的行数

问题描述

我有一个 200 万行的数据框,当我执行一些测试以查看给定命令是否适用于我的数据时,该过程大约需要 5 分钟才能结束。所以我决定将数据减少到 1000 行只是为了我的测试,我会从我已经拥有的数据框创建一个 1000 行的数据框,但我会将数据打乱到不会被排序。所以我需要例如从每 20000 行中检索前 10 行。

标签: scalaapache-sparkapache-spark-sql

解决方案


尝试做类似的事情:

df.sample(0.005)

这基本上随机采样数据帧并返回一小部分数据(例如,本例中每 1000 行中有 5 行)。

您还可以使用参数对其进行配置(请参阅https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset)。


推荐阅读