scala - Spark过滤掉列并使用剩余列创建dataFrame并使用过滤列创建dataFrame
问题描述
我是 Spark 的新手。
我已将 CSV 文件加载到 Spark DataFrame 中,例如 OriginalDF
现在我想 1.从中过滤掉一些列并创建一个原始DF的新数据框 2.从提取的列中创建一个数据框
如何在 spark scala 中创建这两个数据框?
解决方案
使用 select,您可以选择所需的列。
val df2 = OriginalDF.select($"col1",$"col2",$"col3")
使用过滤器,您应该能够过滤行。
val df3 = OriginalDF.where($"col1" < 10)
另一种过滤数据的方法是使用 where。filter 和 where 都是同义词,因此您可以互换使用它们。
val df3 = OriginalDF.filter($"col1" < 10)
注意 select 和 filter 会返回一个新的数据框作为结果。
推荐阅读
- python - 在 Azure 函数中从 python 运行命令行命令
- scala - 如何将包含整数的数组转换为 Scala Spark 列表/序列?
- html - Angular CSS HTML 内联标签和输入字段。如何将标签向左浮动并在右侧输入字段
- gatsby - Gatsby.js 因此错误而失败 -> 生成开发 SSR 包失败。未知词位置:相对;
- python - TypeError: int() 参数必须是字符串、类似字节的对象或数字,而不是“NoneType”(HTML 将输入发送到 Python)
- mongodb - 在分片 MongoDB 中读取/写入单个分片时可能会出现什么问题?
- flutter - 处理 Firebase_Auth 错误并在屏幕上显示错误
- xaml - 具有动态宽度的 Xamarin Grid 列:尽管分配,对象仍占用错误的列
- javascript - React setState hook 不断重置和渲染页面两次
- laravel - debug=false 时的 Laravel 异常处理