首页 > 解决方案 > Scala:如何在不使用 spark/sql 会话的情况下返回镶木地板文件的 Option[Dataframe](在 adls 中)

问题描述

以下链接可能是提示,但很高兴看到一些执行此操作的示例代码

不使用 Spark 从 Scala 读取 Parquet 文件

标签: scala

解决方案


aDataFrame是 Spark 的分布式数据集合之一;Spark 创建分布式集合的唯一方法是通过有效的SparkSession. 没有它你就无法创建DataFrame

您提供的链接显示了如何将 Parquet 文件加载到非分布式集合中,而不是加载到DataFrame.

最简单的 a 类型SparkSession本地的,其中 Spark 的所有组件实际上都在进程内运行。这意味着此会话不需要任何配置设置(没有现有的 Spark 进程在任何地方运行或安装)。这主要对测试很有帮助,但可能对您的用例有帮助。以下是您如何创建一个:

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.appName("test").master("local").getOrCreate

推荐阅读