parquet - 如何在 Parquet 文件中增量存储时间序列以进行有效检索?
问题描述
我想将大量公司的股票价格以时间序列的形式存储在 parquet 文件中。
如果我在 7 月 1 日结束时收集数据,我将编写一个文件,例如:
1 Jul 2020, Company1,35
1 Jul 2020, Company2,46
....
7 月 2 日,我将收到新价格,并以“追加”模式将其写为:
2 Jul 2020, Company1,37
2 Jul 2020, Company2,43
...
这将导致为同一个 parquet 文件创建 2 个分区文件:
stocks.parquet/
part0_stocks.parquet written on 1 Jul
part1_stocks.parquet written on 2 Jul
如果这种情况持续多年,我将创建大量分区文件,每天一个。如果客户端应用程序想要获取 6 个月的时间序列,它将读取多个文件来收集数据,并且可能效率低下。
有没有更好的方法将时间序列数据存储在镶木地板中?
解决方案
推荐阅读
- html - 当链接被分成多个 CSS 列时,悬停状态出现故障
- sql - 如何获取列的唯一值并使用 SELECT 将它们转换为新列?
- angular - 如何将 className 附加到投影内容?
- python - 烧瓶登录问题
- node.js - 我只能使用 .require() 来要求一个模块 - 有替代方案吗?
- python - 在 Numba 中嵌套类
- git - 在子模块中转换文件夹后,“以下未跟踪的工作树文件将被覆盖”
- owlready - 如果使用不同的命名空间,OWLREADY 2 无法加载本体
- vba - VBA Web Scraping- 抓取“hrefs”列表
- sql - 如何在游标内的sql过程中保存由“group by”子句生成的多个值?