apache-spark - 如何从pyspark中的数据框列中选择不同的非空值
问题描述
如何从 py-spark 中的数据框列中选择不同的非空值。
解决方案
好的,我想通了...以下是我从列中选择所有唯一用户 ID 并排除空行的命令:
df.select('UserID').distinct().where(col("userid").isNotNull())
我仍然相信可能有更好的选择。
推荐阅读
- ruby - 如何创建一个随机计时器,在 ruby 中显示给定持续时间内的输出
- c++ - 所以我试图通过查看 C 中的教程来用 C++ 制作这个游戏,我可以用什么来替换 malloc 函数?
- ruby-on-rails - PG::UndefinedTable:错误:关系“类别”不存在:ALTER TABLE“帖子”
- python - TensorFlow2.1.0 中图形可视化失败
- parameters - MapStruct 最佳实践 - 接口/抽象类中的 @Context 参数或字段?
- python - 我做了一个主菜单,但不知道如何让游戏开始
- python - 网页抓取:selenium.common.exceptions.ElementNotInteractableException:消息:元素不可交互
- android - 如何使用 Kotlin 中的 Room 使用实体中的另一个字段来更新 List 中的数据
- c# - 当值为 NULL 时不要创建 XElement
- python - 如何编写一个抓取多个网页的scrapy程序?