首页 > 解决方案 > 如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB?

问题描述

我正在使用 Databricks,它使用 Spark 连接器将数据从 CSV 文件写入 Cosmos DB。现在我的 Cosmos DB 已经包含很少的记录,所以当我运行 Databricks Notebooks 时,它应该只写入 DB 中不存在的记录。我尝试使用 SaveMode.Ignore 但没有帮助。

df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)

现在理想情况下, SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。

如果有人对如何实现这一目标提出建议,那将是一个很大的帮助。

谢谢。

标签: azureapache-sparkazure-cosmosdbdatabricksazure-databricks

解决方案


使用 CSV 文件中的某些唯一字段创建具有唯一键的容器。之后,您无法将重复的唯一键值添加到 Cosmos DB。

更多信息: https ://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys


推荐阅读