首页 > 解决方案 > 尽管 printSchema() 为我的 spark df 生成输出,但 .show() 和 .count() 不起作用?为什么?

问题描述

我目前正在使用 jupyter hub 通过 dataproc 集群运行 PySpark 作业。当我运行时df.printSchema(),它返回数据帧的模式,而当我运行df.show(10)or时df.count(),它执行无限时间并且不生成输出。为什么?以及如何检查是否正在创建 df?

标签: google-cloud-platformpysparkjupyter-labgoogle-cloud-dataproc

解决方案


推荐阅读