pyarrow - 如何索引 PyArrow 表?
问题描述
我目前在我的机器学习模型中使用 Arrow 从 Parquet 读取数据。目前我正试图弄清楚如何从箭头表中获取某些记录。我看到 Arrow Table 有一个 "Take" api,但我不知道如何使用它。我尝试传入一个 int 索引,但是当我尝试这样做时,我得到了以下异常:
Got unexpected argument type <class 'int'> for compute function
有人知道我如何从箭头表中读取记录吗?
解决方案
pyarrow Table的take()
方法需要一个类似数组的索引(而不是单个整数索引):
>>> import pyarrow as pa
>>> table = pa.table({'a': range(5)})
>>> table.to_pandas()
a
0 0
1 1
2 2
3 3
4 4
>>> table.take([0, 2]).to_pandas()
a
0 0
1 2
推荐阅读
- c# - 优化 LINQ 查询
- maven - 如何为完整的源代码构建构建 Maven jar
- javascript - 如何删除空标签jquery的父级
- image - TYPO3 10 RTE ckeditor 图像
- javascript - 如何从 blueprintjs 表中获取数据
- c# - 如何通过电子邮件 (xamarin.forms) 从 ListView 发送项目
- .net-core - 从另一个 .Net 项目调用 SignalR Hub
- r - 计算两个不同分组数据帧中位置点之间的最大距离
- react-native - React Native 与 Apollo 客户端的登录状态管理和缓存
- three.js - 具有单独着色器的缓冲几何组