首页 > 解决方案 > 如何指定在 pyarrow.dataset 中加载哪些列

问题描述

我试图只获得我想要的列,就像我们在熊猫中所做的那样。

use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df

是否有类似于箭头中的选项?

dataset = ds.dataset(path, format="csv")

标签: python-3.xpandaspyarrowapache-arrow

解决方案


我猜你想要的是...

table = dataset.to_table(columns=["ArrDelay", "DepDelay"])

数据集方法scan()to_batches()to_tables()都采用相同的参数,这些参数记录在scan()方法中。


推荐阅读