首页 > 解决方案 > databricks 从 s3 存储桶路径参数加载文件

问题描述

我是 databricks 或 spark 的新手,我从 databricks 学习这个演示。我在 AWS 上有一个 databricks 工作区设置。下面的代码来自官方demo,运行正常。但是这个 csv 文件在哪里?我想检查文件并了解路径参数的工作原理。

DROP TABLE IF EXISTS diamonds;

CREATE TABLE diamonds
USING csv
OPTIONS (path "/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv", 
         header "true")

我检查了 S3 存储桶上的 databrikcs 位置,但没有找到该文件: 在此处输入图像描述

标签: databricksaws-databricks

解决方案


/databricks-datasets是Databricks 拥有的特殊挂载位置,可在所有工作区中直接使用。您无法通过 S3 浏览器浏览它,但您可以使用、 或或 DBFS 文件浏览器(在“数据”选项卡中)来浏览其内容 - 请参阅有关它的单独页面display(dbutils.fs.ls("/databricks-datasets"))%fs ls /databricks-datasets


推荐阅读