google-cloud-platform - 尽管 printSchema() 为我的 spark df 生成输出,但 .show() 和 .count() 不起作用?为什么?
问题描述
我目前正在使用 jupyter hub 通过 dataproc 集群运行 PySpark 作业。当我运行时df.printSchema()
,它返回数据帧的模式,而当我运行df.show(10)
or时df.count()
,它执行无限时间并且不生成输出。为什么?以及如何检查是否正在创建 df?
解决方案
推荐阅读
- python - 自定义 django-comments-xtd 时导入错误
- .net - .NET Core 5 表每种类型继承包括
- oracle - UPDATE 语句不更新任何行
- asp.net - 如何从 asp.net 中的 docuSign 获取完整的签名文档
- php - 如何防止在 Wordpress 上发布重复评论?
- quickbooks - Quickbooks:无需人工交互的身份验证和授权
- firebase - 什么样的值传递给 firebase 中的 isSignInWithEmailLink(String value)
- python - 我正在尝试制作 discord.py on_member_join 但它不会触发
- javascript - 返回未定义的随机对象数组
- python - Python & OpenCV:如何在无网格表中添加线条