python-3.x - 如何指定在 pyarrow.dataset 中加载哪些列
问题描述
我试图只获得我想要的列,就像我们在熊猫中所做的那样。
use_cols = ["ArrDelay", "DepDelay"]
df = pd.read_csv(path, usecols=use_cols)
df
是否有类似于箭头中的选项?
dataset = ds.dataset(path, format="csv")
解决方案
我猜你想要的是...
table = dataset.to_table(columns=["ArrDelay", "DepDelay"])
数据集方法scan()
、to_batches()
和to_tables()
都采用相同的参数,这些参数记录在scan()
方法中。
推荐阅读
- xml - XSD 元素与不同命名空间中的类型声明?
- html - 如何显示一个虚拟 url 而不是 ip?
- swift - 如何使用 CALayer 在 NSCollectionViewItem 中绘制图像
- ios - iOS 13 UserDefaults:在某些设备上启动时应用程序崩溃
- windows - 有时工作流实例会被自动删除而没有完全执行
- java - Vert.X SLF4J 日志记录
- javascript - 如何在javascript中创建电梯程序
- java - 设置@WebInitParam 动态值
- loops - 使用 Symfony 4 用树枝循环
- python - 迭代和连接两个不同长度的列表,同时排除关键字