amazon-web-services - 高维数据仪表板/分析的最佳架构
问题描述
我有 5000 万个实体,需要使用一些元数据进行搜索。找到实体后,我需要返回一堆数据来填充仪表板。这些数据本质上是过去 2 年与该实体的不同类型客户交互的聚合,具有针对平台类型、地理位置等的不同过滤器。
我正在考虑为每个实体创建一个文档并在 Elasticsearch 中对它们进行索引,然后构建一个前端(或使用像 Kibana 这样的开箱即用的东西)。我计划在 AWS 中完成所有这些工作。我将要填充的数据分散在我们 Redshift 集群中的多个表中。
我知道部分答案是尝试不同的架构,直到找到一个可行的架构,但我从来没有做过这样的项目,我想确保我在正确的球场上使用工具和设置,或者如果有一些完全不同的东西我应该考虑。
我也很好奇底层数据是否应该在 ES 文档中,或者该文档是否应该链接到 S3 文件。
我会注意,我在 Python 中工作,所以无论我选择什么,都必须有一个好的 Python 接口。
解决方案
推荐阅读
- javascript - 在 Oracle Apex 交互式报表的 _save 事件之前执行查询
- python - Tkinter 窗口突然关闭而不显示输出
- mysql - JSON_TABLE 有什么替代品吗?
- python - Django/Celery '收到未注册类型的任务'
- javascript - 在 NextJS 中显示 HTML 元素
- javascript - 递归 rxjs switchmap ish
- database - ODI12c studio 在 AIX7.2 中不启动
- python-3.x - 在 Raspberry Pi 零 W 上使用 DHT22 的 Adafruit 库在 Python 中出现大量读取错误
- python - 如何在 Python 中突出显示 pandas 数据框中的分类变量?
- python - Python 或 R——使用数据框创建 SQL 连接