dataframe - 如何在 Spark Dataframe 中执行 Tukey HSD 测试?
问题描述
我正在尝试使用 pyspark 对一个非常大的数据集执行 Tukey 测试。现在我知道在 python 中我们可以使用模块中的pairwise_tukeyhsd
库statsmodels.stats.multicomp
。这将需要我将我的 spark 数据框转换为 pandas 数据框,这违背了使用 RDD 的目的,并且不适用于我的大型数据集。
另一种方法是在 spark 数据帧上手动进行数学测试,这很简单,如此处所示。
但是,要means
与Q_crit
值进行比较,我需要 Tukey 的临界值表。
有什么方法可以计算 Tukey 表上的临界值?
解决方案
推荐阅读
- webhooks - Webhook 调用失败。错误:无法解析 webhook JSON 响应:找不到字段:消息 google.cloud.dialogflow.v2.Intent.Message 中的消息
- java - 有没有办法在 RabbitMQ 队列、交换、绑定等上进行“迁移”?
- python - pip3 和 pip 有什么区别?
- pointers - 我可以返回一个使用特征实现中的 PhantomData 的结构来为原始指针添加生命周期而不污染接口吗?
- wpf - 验证和 NotififyOnValidation 错误不起作用
- ssl - 读取 X.509 密钥或证书文件时出错:在 Curl 请求中发送证书时解析出错
- angularjs - ngtable 外部数据排序、过滤和分页不起作用
- postgresql - 在 linux os 上使用 postgresql 在 opmanager 中重置密码
- javascript - 添加显示更多显示更少按钮
- loops - 在 svg.js 中循环