首页 > 解决方案 > Modin之间的比较| 黄昏 | 数据表 | 用于并行处理和内存不足 csv 文件的 Pandas

问题描述

Dask 的根本区别和主要用例是什么?莫丁 | 数据表

我检查了每个库的文档,它们似乎都为熊猫限制提供了一个“类似”的解决方案

标签: pythonpandasdaskmodin

解决方案


我正在尝试决定从这三个工具中学习哪个工具来进行并行/内存不足计算:daskmodindatatablepandas不是并行工具,也不针对内存不足计算)。

没有在datatable文档中找到任何内存不足的工具(在此处讨论),因此我只关注modindask.

简而言之modin,它试图成为pandasAPI 的替代品,而dask被懒惰地评估。modin是列存储,而dask按行对数据帧进行分区。后面的分发引擎dask是中心化的,而modin(称为ray)的不是。编辑:现在也modin支持dask作为计算引擎。

dask是第一个,拥有庞大的生态系统,看起来非常有据可查,在论坛上讨论并在视频中展示。modin( ray) 有一些设计选择,使其在硬件错误的弹性和高性能序列化方面更加灵活。ray旨在在 AI 研究中最有用,但modin其本身具有普遍用途。ray还针对实时应用程序,以更好地支持实时强化学习。

更多细节在这里这里


推荐阅读