python - Pyspark RDD 的最大文件大小
问题描述
我正在工作中在 Pyspark shell 中练习 Pyspark(独立),这对我来说很新。是否有关于我机器上的最大文件大小和 RAM(或任何其他规格)的经验法则?使用集群的时候呢?
我正在练习的文件大约有 1200 行。但我很想知道在机器规格或集群规格方面可以将多大的文件大小读入 RDD。
解决方案
您可以处理的数据大小没有硬性限制,但是当您的 RDD(弹性分布式数据集)大小超过 RAM 的大小时,数据将被移动到磁盘。即使在数据被移动到磁盘之后,spark 也同样能够处理它。例如,如果您的数据为 12GB,可用内存为 8GB,则 spark 会将剩余数据分发到磁盘并无缝处理所有转换/操作。话虽如此,您可以适当地处理等于磁盘大小的数据。
单个 RDD 的大小当然有大小限制,即 2GB。换句话说,一个块的最大大小不会超过 2GB。
推荐阅读
- python - 如何将构造函数中的默认值设置为从超类继承的值?
- c++ - 如何从 C stdio.h getline() 替换/忽略无效的 Unicode/UTF8 字符?
- android-studio - 为克隆的 Kotlin 应用解决 Android Studio 中缺少运行配置的问题
- javascript - 如何使用 Mysql 和 node.js 进行同步数据库查询?
- r - 拆分 XML 节点?可能在 R
- machine-learning - 我有两个计算“余弦相似度”的公式,有什么区别?
- angular - 根应用程序未使用命名路由器路由到组件模块
- reactjs - 如何使用 Redux 表单验证名称字段中的表单重复名称?
- unit-testing - 无法在本地重现我的 travis-ci unsatisfiable requirements julia 错误
- xcode - macOS 公证:找不到 altool