scala - 减少我在 scala 中处理的行数
问题描述
我有一个 200 万行的数据框,当我执行一些测试以查看给定命令是否适用于我的数据时,该过程大约需要 5 分钟才能结束。所以我决定将数据减少到 1000 行只是为了我的测试,我会从我已经拥有的数据框创建一个 1000 行的数据框,但我会将数据打乱到不会被排序。所以我需要例如从每 20000 行中检索前 10 行。
解决方案
尝试做类似的事情:
df.sample(0.005)
这基本上随机采样数据帧并返回一小部分数据(例如,本例中每 1000 行中有 5 行)。
您还可以使用参数对其进行配置(请参阅https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset)。
推荐阅读
- spring-boot - 在使用 spring 的 neo4j 查询中使用参数
- python - 调度优化以最小化时隙数量(有约束)
- google-cloud-platform - 无法连接到 Linux VM(Google Cloud Platform Compute Engine)
- openshift - 新的 SSL 证书未反映在安全路由上
- python - 使用python删除AutoCAD文档中的对象
- python - 将函数应用于熊猫系列的每个元素
- ruby-on-rails - 您能否将 Rails 中的 link_to 元素限制为仅在您以管理员身份登录时才可见?
- python - 一次附加多个列表
- vba - TableDestination:="Sheet2!R1C1"
- swift - Swift变量声明与可选(?)或强制解包(!)不同?