azure - 如何使用 Azure Cosmos DB Spark 仅将不存在的记录写入 Cosmos DB?
问题描述
我正在使用 Databricks,它使用 Spark 连接器将数据从 CSV 文件写入 Cosmos DB。现在我的 Cosmos DB 已经包含很少的记录,所以当我运行 Databricks Notebooks 时,它应该只写入 DB 中不存在的记录。我尝试使用 SaveMode.Ignore 但没有帮助。
df.write.mode(SaveMode.Ignore).cosmosDB(writeConfig)
现在理想情况下, SaveMode.Ignore 应该跳过现有记录并写入数据库中不存在但没有发生的唯一记录。
如果有人对如何实现这一目标提出建议,那将是一个很大的帮助。
谢谢。
解决方案
使用 CSV 文件中的某些唯一字段创建具有唯一键的容器。之后,您无法将重复的唯一键值添加到 Cosmos DB。
更多信息: https ://docs.microsoft.com/en-us/azure/cosmos-db/unique-keys
推荐阅读
- typescript - TypeScript 类型检查存储为变量,然后在 if 语句中使用
- postgresql - Postgressql 无法从外部访问
- redis - 在具有 3 个节点/服务器的 redis 集群上如何进行分片,其中每个节点有 6 个作为主/从运行的 redis 服务?
- javascript - 在jquery中查找选择器之后的下一种元素
- c# - 按下组合键时聚焦用户控件的子控件
- tcp - HAProxy 'Listen' 块与 'frontend/backend' 块用于负载平衡
- python - 如何暂停 Python 代码并不断检查特定的 Excel 单元格,当它非空时继续执行其余代码
- python - 将类加载到 PyQt/Pyside 应用程序时出现奇怪的信号/插槽行为
- wso2 - 如何在没有发送/呼叫中介的情况下使用聚合中介
- excel - EXCEL IF this AND that OR this AND that 公式