首页 > 解决方案 > 如何索引 PyArrow 表?

问题描述

我目前在我的机器学习模型中使用 Arrow 从 Parquet 读取数据。目前我正试图弄清楚如何从箭头表中获取某些记录。我看到 Arrow Table 有一个 "Take" api,但我不知道如何使用它。我尝试传入一个 int 索引,但是当我尝试这样做时,我得到了以下异常:

Got unexpected argument type <class 'int'> for compute function

有人知道我如何从箭头表中读取记录吗?

标签: pyarrowapache-arrow

解决方案


pyarrow Table的take()方法需要一个类似数组的索引(而不是单个整数索引):

>>> import pyarrow as pa
>>> table = pa.table({'a': range(5)})
>>> table.to_pandas()
   a
0  0
1  1
2  2
3  3
4  4

>>> table.take([0, 2]).to_pandas()
   a
0  0
1  2

推荐阅读