首页 > 解决方案 > 使用 SparkScala 在 foreachPartition 中将 List[Row] 写入 CSV

问题描述

我的目标是从 HBase(数据库)扫描数千行并将结果写入 CSV 文件。我已经有了列标题,并且我已经成功扫描了所需的数据。我唯一的问题是将它们写入 CSV 文件。

这是我的程序流程:

  1. 从 HBase 扫描数千行
  2. 将扫描结果转换为 RDD
  3. 使用RDD.foreachPartition(迭代器)将任务分配给多个工作人员
  4. 在迭代器内部,我将数据转换为 List[Row]
  5. 然后,在迭代器内部,我会将转换后的 List[Row] 写入 CSV。

但是,我不知道如何执行第 5 步 - 在迭代器中将 List[Row] 写入 CSV。

你能给我一个简单的例子来说明它是如何完成的吗?

标签: scalaapache-spark

解决方案


推荐阅读