首页 > 解决方案 > 从 S3 存储桶读取熊猫数据的最快选择?

问题描述

我在 CSV 中有一个大约 400 mb 的数据集,在我的本地我尝试了几种数据格式以实现最快的读取时间。事实证明,按日期划分的镶木地板格式是最合适的。但是当我转移到 S3 存储桶时,使用 aws data wrangler 读取同一个文件需要很长时间。

作为 AWS 世界的新手,我需要知道什么是实现最快运行时间的最佳方法。给定:

我有日期作为功能之一,我可以用它来分区。阅读后我还需要它作为熊猫数据框

标签: pythonpandasamazon-web-servicesamazon-s3

解决方案


有一种格式叫做羽毛,它可能会帮助你。

更多细节在这里 -链接

在此处输入图像描述


推荐阅读