azure - 有人可以解释 MS Azure 中数据块中数据阶段的开始到结束的顺序吗
问题描述
我正在 MS azure 中学习 Databricks,并且已经完成了 4 个步骤来完成任务:
- 上传一个csv文件(自己识别相关数据集)到dbfs
- 对数据集执行一些基本的转换活动
- 最后将输出保存到数据块的 Delta 表中
- 创建增量表后,在 databricks 中实施单元测试(某些测试用例,如计数列分析 pytest 可用于任何其他模块)
我做了第一步,但是第二步我被告知要创建一个数据框并通过我不知道的增量表进行 sql 活动。有人可以分享在数据块上工作时需要完成的顺序吗
解决方案
将 csv 加载到数据框中
df =( spark.read.format('csv')
.option("header","true")
.load('dbfs:/path_to_csv/filename.csv')
)
从那里,您可以将其保存到 Delta Table :
df.write.format("delta").save("/mnt/delta/filename")
spark.sql("CREATE TABLE delta_table_name USING DELTA LOCATION '/mnt/delta/filename/'")
并使用一些 Spark SQL 来查询和分析数据:
# In Python
df = spark.table("delta_table_name")
display(df.groupBy('some_column')
.count()
.orderBy('count', ascending=False))
或者您可以使用 SQL 命令查询它(以 %sql 开始单元格)
%sql
SELECT * FROM delta_table_name
推荐阅读
- django - Django - 将模型字段从浮点数迁移到浮点数数组
- flutter - Flutter - DropdownMenuItem 中的文本溢出
- apache - Openwhisk Setuptools Geetting 405 Method not allowed
- python - Matplotlib 图表显示的刻度少于请求的刻度
- python - 在 python 中调用装饰器时出现 NameError
- python - discord.py,同时使用斜杠命令和前缀
- vue.js - VSCode 中 *.vue 文件的自动格式化不起作用
- flutter - 已检测到对 GetX 的不当使用
- php - 如何在php中获取paratest的进程ID或唯一ID
- python - 如何从 MDbutton 中的 on_release 触发 MDTextField 中的 on_text_validate?