pandas - Dask数据框:获取每个排序组的第一行
问题描述
我有一个包含以下格式的 dask 数据框:
import pandas as pd
import numpy as np
import dask.dataframe as dd
df = pd.DataFrame({'ID': [1, 1, 2, 3], 'Value': ['ABC', 'ABD', 'CDE', 'DEF'], 'Date': ['2020-10-10', '2019-10-12', '2019-01-08', np.nan]})
ddf = dd.from_pandas(df, npartitions=2)
ddf['Date'] = dd.to_datetime(ddf['Date'], dayfirst=True) # Convert to proper dtype
ddf.head()
输出:
| ID | Value | Date
-------------------------
0 | 1. | ABC. | 2020-10-10
1 | 1. | ABD. | 2019-10-12
2 | 2. | CDE. | 2019-01-08
3 | 3. | DEF. | NaT
我需要在按日期排序并按 ID 分组的每个组中选择第一条记录。如果可能的话,如何在 dask 和 pandas 中实现这一点。
输出:
ID | Value | Date
-----------------------
1. | ABD. | 2019-10-12
2. | CDE. | 2019-01-08
3. | DEF. | NaT
我尝试了什么:
ddf.set_index('Date').drop_duplicates('ID').head()
# Error: TypeError: '<' not supported between instances of 'NoneType' and 'int'
ddf.loc[ddf.groupby('ID')['Date'].idxmax()].head()
# Error: ValueError: Not all divisions are known, can't align partitions. Please use `set_index` to set the index.
请测试并发布答案,因为许多答案没有按预期工作。
解决方案
达斯克
ddf.set_index(ddf.Date.fillna(pd.to_datetime('2262-04-11'))).drop_duplicates('ID').set_index('ID').reset_index().compute()
# ID Value Date
#0 1 ABD 2019-10-12
#1 2 CDE 2019-01-08
#2 3 DEF NaT
(2262-04-11 是 的最大日期datetime64[ns]
)
熊猫
df.sort_values(['ID', 'Date']).drop_duplicates('ID')
# ID Value Date
#1 1 ABD 2019-10-12
#2 2 CDE 2019-01-08
#3 3 DEF NaN
推荐阅读
- git - 无法将 Vue 项目推送到 Github
- google-apps-script - Google 脚本 - 使用 .getActiveSpreadsheet() 调用库函数
- machine-learning - 有没有办法在历史数据上使用 BigQuery 的 ML.FORECAST 来测试您的模型?
- javascript - 表单中带有模板文字的 EJS
- python - 在使用 python 的 request.get() 之后,PDF 文件已损坏
- windows - 如何在没有 PNP 的情况下为 Windows 构建服务控制管理器 (SCM) 管理的驱动程序?
- matlab - 有没有办法在matlab中增加一个非数组整数?
- kotlin - Gradle 的初学者问题
- vba - 可变范围的值
- html - 如何在不使用鼠标或某些组合键的情况下转到 VS 代码中的行尾?