首页 > 解决方案 > 如何在 for 循环 if 语句中处理“SettingWithCopyWarning”

问题描述

假设 A 列是基于时间的,B 列是工资。

我在 for 循环中使用 if 语句,试图找到“所有低于前一个但也高于下一个的薪水”。然后将新值 ('YES') 分配给满足条件的行的另一列(C 列)。最后,我想获取满足上述条件的第一列 A。

数据框如下所示:

In [1]:
df = pd.DataFrame({'A':['2007q3','2007q4','2008q1','2008q2','2008q3','2008q4','2009q1','2009q2','2009q3'], 
                   'B':[14938, 14991, 14899, 14963, 14891, 14577, 14375, 14355, 14402]})
df['C'] = pd.Series()
df

Out [1]:
      A       B      C
0   2007q3  14938   NaN
1   2007q4  14991   NaN
2   2008q1  14899   NaN
3   2008q2  14963   NaN
4   2008q3  14891   NaN
5   2008q4  14577   NaN
6   2009q1  14375   NaN
7   2009q2  14355   NaN
8   2009q3  14402   NaN

以下代码可以工作,但显示“SettingWithCopyWarning”警告,我不确定代码的哪些部分导致了问题......

In [2]:
for i in range(1, len(df)-1):
    if (df['B'][i] < df['B'][i-1]) & (df['B'][i] > df['B'][i+1]):
       df['C'][i] = 'YES'
df

Out [2]: 
      A       B      C
0   2007q3  14938   NaN
1   2007q4  14991   NaN
2   2008q1  14899   NaN
3   2008q2  14963   NaN
4   2008q3  14891   YES
5   2008q4  14577   YES
6   2009q1  14375   YES
7   2009q2  14355   NaN
8   2009q3  14402   NaN

In [3]: df['A'][df['C'] == 'YES'].iloc[0]
Out [3]:'2008q3'

或者也许有更好的方法来完成工作。谢谢!!!

标签: pythonpandas

解决方案


有关为什么获得SettingWithCopyWarning的更多详细信息,我建议您阅读此答案。这主要是因为选择列df['C']然后选择行[i]会执行“链式分配”,当您这样做时会以这种方式标记df['C'][i] = 'YES'

对于您尝试执行的操作,您可以在 B 列上使用np.whereshift,例如:

import numpy as np
df['C'] = np.where((df.B < df.B.shift()) & (df.B > df.B.shift(-1)), 'YES', np.nan) 

你得到相同的输出。


推荐阅读