首页 > 解决方案 > Dask 与 Pyarrow 的兼容性并从 CSV 读取

问题描述

我最近发现了 dask,它似乎是解决许多与缩放相关的数字运算问题的好方法。在开始使用该平台之前,我想澄清一些与我的用例场景相关的问题:

过去,我编写的代码会使用 pyarrow 的 api 来读取和格式化 .csv 文件。有没有办法从 pyarrow 系列或带有 dask 的表中创建一个 dask 数组而无需复制,还是我需要使用 dask 的 csv 读取功能来输入 csv 文件?这个阅读器是否使用 pandas 作为后端?

我希望能够灵活地对当前可能未在 dask 中实现的数组/数据集执行操作。这些是否需要通过诸如 dask 的广义 ufunc 或映射/归约操作之类的东西来完成,或者 dask 数组是否是底层数组的薄包装,并且函数可以对数组本身进行操作?我可以为 python 编写 C/C++ 扩展并让它们与 dask 一起工作吗?

标签: dask

解决方案


推荐阅读