python - 在 GMM 中使用 Dask 代替 Pandas
问题描述
我希望在一个非常大的数据集上拟合 GMM 模型,这意味着该数据集不适合单个 clsuter 节点上的内存。能够使用 Dask 从给定集群中的多个节点加载会很好。但是我不确定我是否可以这样做,因为 Dask-ML 中似乎不支持 GMM。
我的主要问题是,当我想在 Dask/Dask-ML 中使用的功能/模型没有明确的等效项时,我是否可以使用 Dask 代替 Pandas。从这个答案中,我得到的印象是,只需用 Dask 替换 Pandas 就足够了,我很好,即用 Dask 和等效方法替换 Pandas 的使用。那是对的吗?
同样,如果我想使用我之前在 Pandas Dataframes 上使用过的statsmodels 方差膨胀因子,我可以在不做进一步更改的情况下用 Dask Dataframes 替换吗?
非常感谢!
解决方案
推荐阅读
- python - 多次发送和接收数据到子进程(Python)
- python - ImportError:在 Raspberry Pi 上运行 python 脚本时没有名为“azure”的模块
- ios - 如何使用文档数量的价值?
- r - 如何将标签添加到 facet_wrap(ed) geom_count 图?
- ssl - 如何在没有证书的客户端的情况下为 mqtts 配置 Mosca?
- c# - 在 EF Code First 中使用视图与迁移冲突
- c# - 操作多个datagridview
- visual-studio - VS 2019 用鼠标导航
- c# - 对于包含多行 LIST 的条目,如何选择使用 LINQ?
- reactjs - 使用钩子将道具从父组件传递给子组件?