scala - 如何从 Scala 中的原始数据帧中提取子集 Spark 数据帧?
问题描述
我有以下数据框(结果df.show()
):
auctionid| bid| bidtime| bidder|bidderrate|openbid|
|1638843936| 500.0|0.47836804| kona-java| 181| 500.0
|1638843936| 800.0| 0.8263889| doc213| 60| 500.0
|1638843936| 600.0| 3.7611227| zmxu| 7| 500.0
|1638843936|1500.0| 5.2263775| carloss8055| 5| 500.0
|1638843936|1600.0| 6.570625| jdrinaz| 6| 500.0
|1638843936|1550.0| 6.8929167| carloss8055| 5| 500.0
|1638843936|1625.0| 6.8931136| carloss8055| 5| 500.0
|1638844464| 300.0| 1.8111342| aprefer| 58| 300.0
|1638844464| 305.0| 3.2126737| 19750926o| 3| 300.0
|1638844464| 450.0| 4.1657987| coharley| 30| 300.0
|1638844464| 450.0| 6.7363195| adammurry| 5| 300.0
|1638844464| 500.0| 6.7364697| adammurry| 5| 300.0
|1638844464|505.78| 6.9881945| 19750926o| 3| 300.0
|1638844464| 551.0| 6.9896526| 19750926o| 3| 300.0
|1638844464| 570.0| 6.9931483| 19750926o| 3| 300.0
|1638844464| 601.0| 6.9939003| 19750926o| 3| 300.0
|1638844464| 610.0| 6.994965| 19750926o| 3| 300.0
|1638844464| 560.0| 6.9953704| ps138| 5| 300.0
我想从使用 Scala Spark 开始和结束创建另一个数据帧 ( df1
) ,即应该显示:1638843936|1550.0
1638844464| 570.0
df1.show()
|1638843936|1550.0| 6.8929167| carloss8055| 5| 500.0
|1638843936|1625.0| 6.8931136| carloss8055| 5| 500.0
|1638844464| 300.0| 1.8111342| aprefer| 58| 300.0
|1638844464| 305.0| 3.2126737| 19750926o| 3| 300.0
|1638844464| 450.0| 4.1657987| coharley| 30| 300.0
|1638844464| 450.0| 6.7363195| adammurry| 5| 300.0
|1638844464| 500.0| 6.7364697| adammurry| 5| 300.0
|1638844464|505.78| 6.9881945| 19750926o| 3| 300.0
|1638844464| 551.0| 6.9896526| 19750926o| 3| 300.0
|1638844464| 570.0| 6.9931483| 19750926o| 3| 300.0
我尝试了以下代码:
val df1=df.filter(df("auctionid")===1638843936 && df("bid")===1550.0**)
但这只是给我一个单一的价值。我该怎么做才能让所有的1638844464| 570.0
行都排到行上?
解决方案
由于数据集没有排序并且它没有任何其他可以过滤的有序道具,我建议您创建另一列 monotonically_increasing_id ,然后在 id 的上限和下限之间获取所需的字段
推荐阅读
- javascript - 表格的每一行都有复选框。但是通过单击复选框,它没有选择该行文本值
- java - netty 服务器如何通过单个端口同时支持 Http 和 Https 协议?
- django - 单击时导航栏中的引导下拉菜单不显示下拉菜单
- java - 如果我关闭 PreparedStatement,数据库中的缓存会丢失吗?
- javascript - 如何让网页只显示一次?
- terraform - 使用 Terraform 在 AWS 上创建实例时出错
- html - 讲述人阅读空文档以获取纯文本信息模式弹出窗口
- android - 如何在视频全屏模式下隐藏嵌套屏幕中的 tabBar?
- javascript - Set focus on the second table
- oracle - obiee中的预测功能,如何使用?