scala - 使用 SparkScala 在 foreachPartition 中将 List[Row] 写入 CSV
问题描述
我的目标是从 HBase(数据库)扫描数千行并将结果写入 CSV 文件。我已经有了列标题,并且我已经成功扫描了所需的数据。我唯一的问题是将它们写入 CSV 文件。
这是我的程序流程:
- 从 HBase 扫描数千行
- 将扫描结果转换为 RDD
- 使用
RDD.foreachPartition
(迭代器)将任务分配给多个工作人员 - 在迭代器内部,我将数据转换为 List[Row]
- 然后,在迭代器内部,我会将转换后的 List[Row] 写入 CSV。
但是,我不知道如何执行第 5 步 - 在迭代器中将 List[Row] 写入 CSV。
你能给我一个简单的例子来说明它是如何完成的吗?
解决方案
推荐阅读
- c++ - 如何在 C++ 中使用 win32 在 Windows 上的远程计算机上创建一个新文件?
- amazon-elastic-beanstalk - 如何从弹性 beantalk 获取更新的服务器文件?
- c# - Azure Pipelines:“没有与搜索模式匹配的包。”
- c - os161 中的不兼容指针类型警告
- ibm-cloud - IBM Watson IAM 令牌是否适用于所有服务或特定于每个服务,例如 Speech-to-Text?
- git - 以父提交的文本开始 git commit 的文本
- loops - 在Stata中使用循环重命名一长串变量
- r - 在自动绘图中将标题居中对齐
- ruby-on-rails - 如何在 PostgreSQL 中保存地图?
- c# - 自己类的 C# 类数组构造函数