python - Modin之间的比较| 黄昏 | 数据表 | 用于并行处理和内存不足 csv 文件的 Pandas
问题描述
Dask 的根本区别和主要用例是什么?莫丁 | 数据表
我检查了每个库的文档,它们似乎都为熊猫限制提供了一个“类似”的解决方案
解决方案
我正在尝试决定从这三个工具中学习哪个工具来进行并行/内存不足计算:dask
,modin
或datatable
(pandas
不是并行工具,也不针对内存不足计算)。
没有在datatable
文档中找到任何内存不足的工具(在此处讨论),因此我只关注modin
和dask
.
简而言之modin
,它试图成为pandas
API 的替代品,而dask
被懒惰地评估。modin
是列存储,而dask
按行对数据帧进行分区。后面的分发引擎dask
是中心化的,而modin
(称为ray
)的不是。编辑:现在也modin
支持dask
作为计算引擎。
dask
是第一个,拥有庞大的生态系统,看起来非常有据可查,在论坛上讨论并在视频中展示。modin
( ray
) 有一些设计选择,使其在硬件错误的弹性和高性能序列化方面更加灵活。ray
旨在在 AI 研究中最有用,但modin
其本身具有普遍用途。ray
还针对实时应用程序,以更好地支持实时强化学习。
推荐阅读
- php - DocuSign PHP SDK - 为什么我调用 createEnvelope() 时会发送两封电子邮件?
- flutter - Flutter ScrollController 在 NestedScrollView 中的位置
- python - 如何提高文本解析功能的性能?
- python - 我如何登录到这个特定的网站/如何使用 cookie 文件登录
- r - 如何使用 tidyverse 将相应的文件名添加为新列
- javascript - Js issue,希望每次点击卡片都有新内容
- android - 发布应用程序后 Firebase 身份验证失败
- c - 数组作为函数中的参数
- r - 从两列排列不排列
- reactjs - 在执行 Apollo 突变之前映射变量