首页 > 解决方案 > 更好的是 - 在将数据加载到雪花之前转换我的数据,或者将加载的数据克隆到所需的表

问题描述

例如,我有一个 490,000 行的数组,其中包含名称、版本、颜色以及它是否在表中可用。似乎最大的数组是 120898752 通过 quora 问题:https ://www.quora.com/What-is-the-maximum-length-of-any-list-in-Python

样本数据:

          name version      color  available
0       Bigtax   2.2.9     Indigo      False
1  Solarbreeze    7.00      Khaki      False
2  Toughjoyfax   0.7.1  Turquoise      False
3        Otcom    0.95     Indigo      False
4    Holdlamis    7.15  Turquoise      False

我希望最终表格是可用颜色和每种颜色的应用程序名称。

gf = df.groupby(['name', 'color']).count()

                    version  available
name     color                        
Aerified Crimson          1          1
         Goldenrod        1          1
         Green            1          1
         Indigo           2          2
         Khaki            2          2

我读到建议以 10mb 的大小上传数据。每次我需要根据原始数据更新它时,我可以使用已经转换的 python 连接器在一个大型 sql 查询中上传大型数据框吗?或者将它在雪花表中转换为新表是一个更好的计划?

我今年的一般用途是计划每季度添加大约 4 次应用程序版本和颜色。

标签: pythonsnowflake-cloud-data-platform

解决方案


推荐阅读