首页 > 解决方案 > Pyspark 命令移动到新行

问题描述

为什么在 pyspark 中执行的以下查询移动到下一行而不是执行当前命令

cloudera VM 5.X 中的 spark 1.6

创建了一个名为 fprdd 的 rdd (这个命令执行得很好)

pair1rdd = fprdd.map(lambda x : (x[2] ,(x[0],x[1]))

甚至尝试通过 Shift + Enter 选择命令(同样徒劳)

按回车键进入新行

任何人都可以帮助我解决可能的问题。

标签: pyspark

解决方案


为了得到这个问题的答案,你应该了解什么是Spark 中的惰性评估

Spark 中的所有转换都是惰性的,因为它们不会立即计算结果。相反,他们只记得应用于某些基础数据集(例如文件)的转换。仅当操作需要将结果返回给驱动程序时才计算转换。这种设计使 Spark 能够更高效地运行。例如,我们可以意识到通过 map 创建的数据集将在 reduce 中使用,并且仅将 reduce 的结果返回给驱动程序,而不是更大的映射数据集。


推荐阅读