首页 > 解决方案 > 本地测试 Spark Sql 查询

问题描述

最近我在一个 Spark 应用程序中工作,作为项目的一部分,数据集是从 HBase 服务器读取的,Spark sql 修改读取的数据并保存到 Kafka。

我面临的问题是我无法在本地测试 spark.sql。每次我必须提交应用程序 jar 并在服务器中运行。在 Sql 中,我们有工具可以在本地环境中测试所有查询。

有没有一种方法或其他工具可以通过从 HBase 读取数据来在本地测试 spark sql?

我尝试了 hbaseExplorer,但它并没有解决问题。

谢谢,

标签: javapythonapache-sparkhbase

解决方案


如果您正在谈论对 Spark SQL 查询进行单元测试。您始终可以在本地创建 DataSet 并对它们运行查询

scala> val df = List(( 1 , false , 1.0 ),
 |         (2 , true , 2.0 )
 |         ).toDF("col1", "col2","col3" )
 df: org.apache.spark.sql.DataFrame = [col1: int, col2: boolean ... 1 more field]
 scala> df.registerTempTable("myTable")
 scala> sql("select sum(col3) from myTable").show
 +---------+
 |sum(col3)|
 +---------+
 |      3.0|
 +---------+

推荐阅读