首页 > 解决方案 > DataFrame 无循环更新行的最快方法

问题描述

创建场景:

假设一个数据帧有两个系列,A输入在哪里B,结果是A[index]*2

df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [2, 4, 6]})

假设我正在接收 100k 行数据帧并在其中搜索错误(此处B->0无效):

df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [2, 0, 6]})

使用搜索无效行

invalid_rows = df.loc[df['A']*2 != df['B']]

我有invalid_rows现在,但我不确定df用结果覆盖原始无效行的最快方法是A[index]*2什么?

迭代dfusing是一种选择,但如果增长会iterrows()很慢。df我可以df.update()以某种方式使用它吗?

带循环的工作解决方案:

index = -1
for row_index, my_series in df.iterrows():
  if myseries['A']*2 != myseries['B']:
    df[index]['B'] = myseries['A']*2 

但是有没有更快的方法来做到这一点?

标签: pythonpandasdataframeseries

解决方案


使用mul,neloc:

m = df['A'].mul(2).ne(df['B'])
# same as: m = df['A'] * 2 != df['B']
df.loc[m, 'B'] = df['A'].mul(2)

   A  B
0  1  2
1  2  4
2  3  6

m返回一个布尔系列,它标记所在行A * 2 != B

print(m)

0    False
1     True
2    False
dtype: bool

推荐阅读