apache-spark - Apache Spark 获取在内存中创建的 RDD 的数量
问题描述
我正在将 MLlib 与 Python(Pyspark)一起使用,并且想了解在执行我的代码之前在内存中创建的 RDD 的数量。我正在对 RDD 执行事务和操作。所以只想了解在内存中创建的 RDD 的总数。
解决方案
RDD 的数量取决于您的程序。
但我认为在这里您想知道创建 RDD 的分区数:
为此,您可以使用:rdd.getNumPartitions()
如果有效,请点赞
推荐阅读
- swift - 用户默认值 Swift
- python - Qt:无法设置语言环境修饰符:
- javascript - 流类型检查问题
- powershell - 用 PowerShell 格式表输出中的 LF 换行符控制字符替换 CRLF
- sql - PL/SQL:ORA-00932:不一致的数据类型:预期 - 得到 CLOB
- c# - 将 JToken 列表转换为其中一个值的列表
- html - 我的 HTML + JavaScript 代码适用于在线编辑器,但不能离线
- android - 以编程方式创建的单选按钮不会切换
- angular - 当我的手机处于离线模式时,Angular pwa 应用程序没有打开,它也没有缓存内容
- django - django 嵌套查询过滤