首页 > 解决方案 > 在 GMM 中使用 Dask 代替 Pandas

问题描述

我希望在一个非常大的数据集上拟合 GMM 模型,这意味着该数据集不适合单个 clsuter 节点上的内存。能够使用 Dask 从给定集群中的多个节点加载会很好。但是我不确定我是否可以这样做,因为 Dask-ML 中似乎不支持 GMM。

我的主要问题是,当我想在 Dask/Dask-ML 中使用的功能/模型没有明确的等效项时,我是否可以使用 Dask 代替 Pandas。从这个答案中,我得到的印象是,只需用 Dask 替换 Pandas 就足够了,我很好,即用 Dask 和等效方法替换 Pandas 的使用。那是对的吗?

同样,如果我想使用我之前在 Pandas Dataframes 上使用过的statsmodels 方差膨胀因子,我可以在不做进一步更改的情况下用 Dask Dataframes 替换吗?

非常感谢!

标签: pythonpandasmachine-learningdaskdistributed-computing

解决方案


推荐阅读