pandas - 用什么代替 pandas.Series.filter?
问题描述
熊猫-> cuDF
将一些为 pandas 编写的 python 转换为在 Rapids 上运行
熊猫
temp=df_train.copy()
temp['buildingqualitytypeid']=temp['buildingqualitytypeid'].fillna(-1)
temp=temp.groupby("buildingqualitytypeid").filter(lambda x: x.buildingqualitytypeid.size > 3)
temp['buildingqualitytypeid'] = temp['buildingqualitytypeid'].replace(-1,np.nan)
print(temp.buildingqualitytypeid.isnull().sum())
print(temp.shape)
有人知道用什么代替pandas.Series.filter
相同的结果cuDF
吗?
解决方案
我们仍在研究 中的filter
功能cudf
,但目前以下方法将实现许多filter
类似的需求:
df_train = pd.DataFrame({'buildingqualitytypeid': np.random.randint(0, 4, 12), 'value': np.arange(12)})
temp=df_train.copy()
temp['buildingqualitytypeid']=temp['buildingqualitytypeid'].fillna(-1)
gtemp=temp.groupby("buildingqualitytypeid").count()
gtemp=gtemp[gtemp['value'] > 3]
gtemp = gtemp.drop('value', axis=1)
gtemp = gtemp.merge(temp.reset_index(), on="buildingqualitytypeid")
gtemp = gtemp.sort_values('index')
gtemp.index = gtemp['index']
gtemp.index.name = None
gtemp = gtemp.drop('index', axis=1)
如果您不需要这些index
值,这可以更简单地完成。
推荐阅读
- ios - 将构建分发到应用商店连接时出现应用商店连接操作错误
- google-cloud-dataflow - 云数据流 - 使用的机器数量
- cypress - 为每个赛普拉斯测试结果发送 REST 消息
- python - 定义 scipy 优化的边界或约束
- reactjs - TS2322:当我将 useContext 与函数一起使用时出现类型错误
- android - Android battery-historian -docker:error 无法解析汇总的电池统计信息
- flutter - 禁用硬件/设备后退按钮,但应启用 Appbar 后退按钮
- c# - 如何为实体框架 Sql 提供程序编写测试并访问生成的 Sql 命令
- discord.js - 如何使用 YTDL 和 discordjs/voice 包流式传输音乐。不和谐JS
- vue.js - VueJS 组件值绑定与 BootstrapVue 组件