首页 > 解决方案 > 有人可以解释 MS Azure 中数据块中数据阶段的开始到结束的顺序吗

问题描述

我正在 MS azure 中学习 Databricks,并且已经完成了 4 个步骤来完成任务:

  1. 上传一个csv文件(自己识别相关数据集)到dbfs
  2. 对数据集执行一些基本的转换活动
  3. 最后将输出保存到数据块的 Delta 表中
  4. 创建增量表后,在 databricks 中实施单元测试(某些测试用例,如计数列分析 pytest 可用于任何其他模块)

我做了第一步,但是第二步我被告知要创建一个数据框并通过我不知道的增量表进行 sql 活动。有人可以分享在数据块上工作时需要完成的顺序吗

标签: azureclouddatabricksazure-databricks

解决方案


将 csv 加载到数据框中

df =( spark.read.format('csv')
      .option("header","true")
      .load('dbfs:/path_to_csv/filename.csv')
    )

从那里,您可以将其保存到 Delta Table :

df.write.format("delta").save("/mnt/delta/filename")
spark.sql("CREATE TABLE delta_table_name USING DELTA LOCATION '/mnt/delta/filename/'")

并使用一些 Spark SQL 来查询和分析数据:

# In Python
df = spark.table("delta_table_name")
display(df.groupBy('some_column')
          .count()
          .orderBy('count', ascending=False))

或者您可以使用 SQL 命令查询它(以 %sql 开始单元格)

%sql
SELECT * FROM delta_table_name 

推荐阅读