python - 从 S3 存储桶读取熊猫数据的最快选择?
问题描述
我在 CSV 中有一个大约 400 mb 的数据集,在我的本地我尝试了几种数据格式以实现最快的读取时间。事实证明,按日期划分的镶木地板格式是最合适的。但是当我转移到 S3 存储桶时,使用 aws data wrangler 读取同一个文件需要很长时间。
作为 AWS 世界的新手,我需要知道什么是实现最快运行时间的最佳方法。给定:
我有日期作为功能之一,我可以用它来分区。阅读后我还需要它作为熊猫数据框。
解决方案
推荐阅读
- sqlite - core-data 和 SQLite 和用法之间的技术区别是什么?
- c - C 程序代码辅助
- regex - 使用捕获组隔离 URL 路径
- bash - 如何从 kubectl 转发 psql shell
- asp.net - Vue.js list binding doesn't work
- c# - c# asp multi threading or web method
- javascript - Remove tooltip at out of hover
- asp.net-core-2.0 - ASP.NET Core 2.0 配置绑定
- tensorflow - 找不到“nvcuda.dll”TensorFlow
- javascript - 如何将连接、组件和功能导出到一个地方?(只需要建议)