首页 > 解决方案 > 如何在 Parquet 文件中增量存储时间序列以进行有效检索?

问题描述

我想将大量公司的股票价格以时间序列的形式存储在 parquet 文件中。
如果我在 7 月 1 日结束时收集数据,我将编写一个文件,例如:

1 Jul 2020, Company1,35  
1 Jul 2020, Company2,46  
....

7 月 2 日,我将收到新价格,并以“追加”模式将其写为:

2 Jul 2020, Company1,37  
2 Jul 2020, Company2,43  
...  

这将导致为同一个 parquet 文件创建 2 个分区文件:

stocks.parquet/   
    part0_stocks.parquet written on 1 Jul  
    part1_stocks.parquet written on 2 Jul

如果这种情况持续多年,我将创建大量分区文件,每天一个。如果客户端应用程序想要获取 6 个月的时间序列,它将读取多个文件来收集数据,并且可能效率低下。

有没有更好的方法将时间序列数据存储在镶木地板中?

标签: parquetapache-drill

解决方案


推荐阅读