首页 > 解决方案 > Hive 与 Parquet 文件上的 Spark 数据集

问题描述

我有 2 个相同数据的实例。

  1. 以 parquet 格式名为 myData 的 Hive 表
  2. Parquet 格式的 Parquet 文件(不由 Hive 管理)

考虑以下代码:

val myCoolDataSet = spark
    .sql("select * from myData")
    .select("col1", "col2")
    .as[MyDataSet]
    .filter(x => x.col1 == "Dummy")

和这个:

val myCoolDataSet = spark
    .read
    .parquet("path_to_file")
    .select("col1", "col2")
    .as[MyDataSet]
    .filter(x => x.col1 == "Dummy")

我的问题是在性能和​​扫描数据量方面哪个更好?spark如何为两种不同的方法计算它?

标签: scalaapache-sparkparquet

解决方案


Hive 用作有关 Parquet 文件的元数据的存储。Spark 可以利用其中包含的信息来执行有趣的优化。由于后备存储是相同的,您可能不会看到太大的差异,但基于 Hive 中的元数据的优化可以提供优势。


推荐阅读