python - 更好的是 - 在将数据加载到雪花之前转换我的数据,或者将加载的数据克隆到所需的表
问题描述
例如,我有一个 490,000 行的数组,其中包含名称、版本、颜色以及它是否在表中可用。似乎最大的数组是 120898752 通过 quora 问题:https ://www.quora.com/What-is-the-maximum-length-of-any-list-in-Python
样本数据:
name version color available
0 Bigtax 2.2.9 Indigo False
1 Solarbreeze 7.00 Khaki False
2 Toughjoyfax 0.7.1 Turquoise False
3 Otcom 0.95 Indigo False
4 Holdlamis 7.15 Turquoise False
我希望最终表格是可用颜色和每种颜色的应用程序名称。
gf = df.groupby(['name', 'color']).count()
version available
name color
Aerified Crimson 1 1
Goldenrod 1 1
Green 1 1
Indigo 2 2
Khaki 2 2
我读到建议以 10mb 的大小上传数据。每次我需要根据原始数据更新它时,我可以使用已经转换的 python 连接器在一个大型 sql 查询中上传大型数据框吗?或者将它在雪花表中转换为新表是一个更好的计划?
我今年的一般用途是计划每季度添加大约 4 次应用程序版本和颜色。
解决方案
推荐阅读
- visual-studio-code - 你如何让 VS Code 在返回后保持专注于同一行?
- r - geom_point 和 geom_line 的 ggplot 顺序不同
- c# - 以编程方式启用录制设备
- c++ - 打印的二叉树问题。用户输入不打印任何内容
- vb.net - 如何从数组中读取列值
- c - 处理文件或标准输入
- c# - MVC [Authorize] 属性适用于除主页之外的每个页面
- rabbitmq - 从 OS 映像克隆的 VM 上的 RabbitMQ 无法启动,可能是由于节点名称
- javascript - 如果我的接口对象具有相似的键,则尝试为它分配值?
- ruby-on-rails - 根据第三个属性按不同属性对 ActiveRecord 集合进行排序