performance - 如何提高 Pyspark 方法的性能以获取缺失数据的行的比率
问题描述
我正在尝试对大约 2600 万行 x 36 列的大型数据集进行数据验证,以确定列中缺失数据的比率。然而,当前的解决方案真的很慢,想知道是否有人知道任何加速优化它的方法?
我找到并修改了此处建议的方法How to find count of Null and Nan values for each column in a PySpark dataframe? 它可以工作,但对于大型数据集来说确实很慢。我还尝试使用 pandas 数据框,它似乎在较小的容量下性能更高,但它不会扩大规模。
ratio_df = crm_df.select([(1 - (count(when(isnan(c) | col(c).isNull(), c))) / row_count).alias(c) for c in crm_df.columns])
不知道是否可以提高性能,但目前需要几个小时,理想情况下希望将其缩短到不到一个小时。
解决方案
推荐阅读
- ruby-on-rails - 粉碎开始不运行红宝石进程
- laravel - 多对多表如何在 Laravel 上查看
- mysql - 在 drupal 应用程序中将 MySQL 查询转换为 SQl Server 查询
- telegram - Telegram API 是否允许从相机获取照片?
- c# - 如何在 C# 中存储 SQL 查询的结果字符串
- python - 如何使用python实时流式传输视频
- javascript - 在给定输入中查找不同字符的唯一组合
- php - PHP MVC:如何从外部类使用存储在视图中的私有模型对象
- javascript - Materialise carousel 在最小化时不断改变大小
- php - wp-login 损坏的管理员重定向