python - dask 数据帧 head() 返回空 df
问题描述
我有一个 dask 数据框,其中一列上有索引。问题是如果我执行 df.head() 它总是会返回一个空的 df,而 df.tail 总是返回正确的 df。我检查了 df.head 总是检查第一个分区中的前 n 个条目。因此,如果我执行 df.reset_index(),它应该可以工作,但事实并非如此
下面是重现这个的代码:
import dask.dataframe as dd
import pandas as pd
data = pd.DataFrame({
'i64': np.arange(1000, dtype=np.int64),
'Ii32': np.arange(1000, dtype=np.int32),
'bhello': np.random.choice(['hello', 'Yo', 'people'], size=1000).astype("O")
})
daskDf = dd.from_pandas(data, chunksize=3)
daskDf = daskDf.set_index('bhello')
print(daskDf.head())
解决方案
尝试使用 , 调用head
以npartitions=-1
使用所有分区(默认情况下,仅使用第一个,并且可能没有足够的元素来返回head
)。
daskDf.head(npartitions=-1)
推荐阅读
- javascript - 如何在 JavaScript 中编写一个函数来创建一个对象并将该对象推送到一个数组中?
- jenkins-pipeline - 在特定时间运行阶段 Jenkins
- c++ - 我的生产者消费者代码中是否存在死锁或竞争条件?
- javascript - 从 Firestore 返回的文档快照数量不一致
- c# - EF6 -> EFCore ExecuteSqlCommand 等效
- p5.js - 在函数原型中使用类时出错
- adoptopenjdk - Jahia 7.3 与 AdoptOpenJDK 8 兼容吗?
- c# - SQL Server 2008 - 带有 sa 的间歇性错误 18456
- node.js - 无法从 prisma 服务器获得响应
- nginx - Nginx 反向代理和 ZAP