首页 > 解决方案 > python for loop - 大数据集的运行时优化

问题描述

我有一些逻辑可以检查特定行的 id 是否出现在同一行的同一数据框的另一列中。如果 id 出现在 df['list_of_approved_id'] 中,那么我将字段 df['flag'] 的值更改为 1。

df['flag'] = 0  

for ind in df.index:
  if df['id'][ind] in (df['list_of_approved_id'][ind]):
     df['flag'][ind] = 1 

逻辑过去运行良好,但现在慢得多。我正在尝试将这个逻辑重写为运行得更快的更 Python 的东西。寻求帮助以优化此逻辑!任何帮助表示赞赏!

标签: pythondataframefor-loopindexing

解决方案


推荐阅读