apache-spark - PySpark S3 文件读取性能考虑
问题描述
我是 pyspark 的新手。只是想了解我应该将多大的文件写入 S3,以便 Spark 可以读取这些文件并进行处理。
我有大约 400 到 500GB 的总数据,我需要先使用一些工具将它们上传到 S3。只是想了解每个文件在 S3 中应该有多大,以便 Spark 可以有效地读取和处理。spark 将如何将 S3 文件数据分发给多个执行器?
有大神阅读链接吗?
谢谢
解决方案
- 尝试 64-128MB,虽然这取决于格式。
- Spark 将 S3 数据视为独立于位置,因此在其放置决策中不使用位置——只要有能力进行额外工作的工作人员即可
推荐阅读
- reactjs - 在 React 中动态更新下拉菜单
- python - 删除尾随字符
- sql - 查询输出中的语法替换值错误
- react-native - React Native 和 Jest:尝试运行测试,模拟函数返回值
- r - 数据框中重复的列名。行将重复的列绑定在一起
- css - 如何使 `text-decoration: underline` 在浏览器中看起来一样?
- ldap - 如何使用 LDAP Kerberos 使用 Keycloak 发送 WWW-Authenticate 标头
- vue.js - Jest 找不到模块 Vue/Vite
- javascript - 从对象数组到 FormData
- linux-kernel - 板文件使用与设备树