首页 > 解决方案 > 比较 Scala 中 DataFrame 的特定行

问题描述

我有两个 Scala DataFrame,我正在测试它们的相似性。我希望能够选择一个特定的行号,并在两个 DataFrame 之间比较该行的每个值。例如:

Dataframe 1: df1

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 17  |   Red     |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

Dataframe 2: df2

+------+-----+-----------+
| Name | Age | Eye Color |
+------+-----+-----------+
| Bob  | 12  |   Blue    |
| Bil  | 14  |   Blue    |
| Ron  | 13  |   Brown   |
+------+-----+-----------+

输入:第 2 行,输出:年龄、眼睛颜色。

理想的情况是输出也显示不同的值。我在这里考虑过这个选项,但问题是我的 DataFrame 非常大(超过 200,000 行),所以这需要很长时间。有没有更简单的方法可以在 Scala 中选择 Dataframe 的特定行值?

标签: scaladataframeapache-sparkcollect

解决方案


推荐阅读