apache-spark - Databricks Delta 和 Hive 事务表
问题描述
我从两个来源看到,现在您无法以任何有意义的方式与 Spark 的 HIVE 事务表进行交互。
我看到 Databricks 发布了一个名为Databricks Delta的事务功能。现在是否可以使用此功能读取 HIVE 事务表?
解决方案
没有。不是 Hive 事务表。您创建了一种名为 Databricks Delta Table(镶木地板的 Spark 表)的新型表,并利用 Hive 元存储来读取/写入这些表。
它是一种外部表,但更像是模式的数据。更多 Spark 和 Parquet。
您的问题的解决方案可能是读取配置单元文件并在 Databricks 笔记本中相应地实施架构,然后将其保存为 databricks 增量表。像这样:df.write.mode('overwrite').format('delta').save(/mnt/out/put/path)
您仍然需要编写一个指向该位置的 DDL。仅供参考 DELTA 表是事务性的。
推荐阅读
- sql - 从交叉连接中的最小行中选择其他属性
- javascript - 如何通过 Media Source Extension API 将视频和音频文件转换为流畅播放?
- node.js - 'setValue' 方法在 Angular 应用程序中不起作用
- vuejs2 - VueJS - 跳过观察者的第一个变化
- windows - 删除超过 X 天的用户配置文件的脚本
- r - R 包检查中的奇怪错误:cleanEx() 或 dev.off()
- javascript - 有没有办法进一步简化这些 javascript 函数?
- machine-learning - 从随机森林的训练和测试集中选择不同的特征
- java - Java多态指针
- gcc - ARM Cortex-M7 长分支在编译时出现错误“relocation truncated to fit: R_ARM_PREL31”