首页 > 解决方案 > Spark Scala Convert Big RDD to Dataframe 性能问题

问题描述

我有 RDD一个 spark Hbase 连接器的输出(22 列,10000 行),我必须将其转换为DataFrame.

这是我的方法:

val DATAFRAME = hBaseRDD.map(x => {
(Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Id"))),
Bytes.toString(x._2.getValue(Bytes.toBytes("header"), Bytes.toBytes("Time"))),
...
Bytes.toString(x._2.getValue(Bytes.toBytes("measures"), Bytes.toBytes("measure_i"))))})
.toDF()
.withColumnRenamed("_1", "Time")
.withColumnRenamed("_2", "name example 2")
... 
.withColumnRenamed("_i", "name example i")
.sort("Time")

它运行良好,问题是性能,有什么办法可以优化它吗?

提前考虑

标签: scalaapache-sparkapache-spark-sqlhbase

解决方案


推荐阅读