python - 有没有更快的方法从 pyspark/python 中的 s3 读取数据
问题描述
我的数据在 s3 中分区为 mnt/.../year=xxx/month=mm/day=dd。当我尝试在 pyspark 中使用 .read() 读取与一个月相对应的数据时,需要花费很多时间。有没有比仅仅执行 .read() 更好的方法来读取数据。文件格式是 avro。
解决方案
推荐阅读
- c++ - 编译代码时出现问题 - strncpy char* 和 string
- maven - 如何针对 Maven 依赖版本范围中的下限进行编译
- version-control - 有没有办法忽略 RTC 客户端中的临时文件夹?
- sql-server - 将批量数据导入 SQL Server 时,数据加载器与 SSIS(Sql server 集成服务)哪个更好
- ruby-on-rails - RuntimeError(未找到资源类)
- r - 不连续点的曲线函数问题
- android - 使用 Mapbox 离线侧载
- spring - Spring数据 - 按列乘法排序
- java - 使用@Inject 对受保护字段进行依赖注入
- postgresql - Postgres Optimizer:为什么它与成本有关?[编辑] 如何选择 random_page_cost?