首页 > 解决方案 > Cassandra Schema Design - 处理相似但不同的源数据集的合并

问题描述

我正在做一个项目,将来自多个数据库表和文件的数据合并到 cassandra 中。这将来自不同的来源,例如平面文件、sql db 等。

问题陈述:这些源文件中的大多数都是相似的,但是,有一些差异,我想将它们中的每一个合并到一个 cassandra 表中。大约有 50 个相似的字段和额外的 20 个不共存的字段。我的想法是我可以将它们全部合并,然后添加所有字段,如果没有填充,则将它们保留为墓碑。另一种选择是将相同的字段合并到 cassandra 中,然后为不同的字段添加地图列;但是,我不知道这样做除了看起来更好之外是否真的有任何好处。

处理过这个问题的人有什么想法/建议吗?

标签: cassandra

解决方案


您需要一个 ETL 工具(提取/转换/加载)来组合、清理和/或标准化数据,并使用 Cassandra 作为您的存储库。市场上有多种工具可以为您提供此功能(谷歌搜索“ETL 工具”可以为您提供大量资源可供选择)。

作为个人喜好检查https://nifi.apache.org/,您可以将这些转换和过滤定义为工作流


推荐阅读