apache-spark - 什么是用于查找应用于特定 RDD 的操作的 spark 命令
问题描述
如果我的 RDD 值为:
val a = sc.parallelize(1 to 5)
在一些代码之后,如果我忘记了应用了哪些操作a
,那么找到这些操作的命令是什么?
解决方案
RDD.toDebugString将为您提供所需的信息:
val a = sc.parallelize(1 to 5)
println(a.toDebugString)
印刷
(4) ParallelCollectionRDD[0] at parallelize at Test.scala:31 []
您可以在此处找到有关如何解释调试字符串的更多信息。
调试字符串包含没有数据的 DAG。没有 Spark 功能可以“记录”包括数据在内的所有操作。如果需要保留数据,可以尝试使用AspectJ拦截 Spark API ,但这需要大量工作。
推荐阅读
- c# - 使用 Azure Active Directory 登录时,如何在 Azure Web App 的 C# 代码中获取我的用户名?
- python - 将张量调整为张量流中的特定形状
- tensorflow - 谷歌 colab 训练完 yolov3-tiny 后立即停止
- c# - 使用三元运算符 c# 分配动作
- python - Pandas 中的数据转换
- matlab - 从向量中的数字中查找前导零的数量
- python - pygame中Rect类的属性错误
- timezone - Bing 地图:时区 REST API 不起作用
- javascript - 无法使用自定义挂钩更新状态值
- kubernetes - 如何指向与入口不同的 ns 中的服务