python - 在多列中用 np.nan 替换各种重复值
问题描述
我正在尝试replace
duplicate
在columns
一个pandas
df
. 对于df
以下内容,我有与这些日期相关的日期和值。每个日期的所有值都相同。我只想保留每个日期的第一个值并将以下duplicate
值替换为np.nan
. 以下是我的尝试:
import pandas as pd
import numpy as np
d = ({
'Date' : ['1/1/18','1/1/18','1/1/18','2/1/18','2/1/18','3/2/18','3/2/18','3/2/18'],
'Val_D' : [10,10,10,22,22,10,10,10],
'Val_M' : [100,100,100,100,100,240,240,240],
})
df = pd.DataFrame(data = d)
df['Date'] = pd.to_datetime(df['Date'], format= '%d/%m/%y')
pd.Series([10,22,100,240]).duplicated()
dup = df.apply(pd.Series.duplicated, axis = 1)
df = df.where(~dup,np.nan)
print(df)
预期输出:
Date Val_D Val_M
0 1/1/18 10 100
1 1/1/18
2 1/1/18
3 2/1/18 22
4 2/1/18
5 3/2/18 10 240
6 3/2/18
7 3/2/18
解决方案
好吧,一种方法是简单地使用diff
+ne
s = df[['Val_D', 'Val_M']]
df[['Val_D', 'Val_M']] = s[s.diff().ne(0)].fillna('')
即使这会产生您的预期输出,dtypes
您的列也会变成object
并且您失去了数字的矢量化能力。所以我建议你不要这样做。没有最后一块fillna('')
,你得到
Date Val_D Val_M
0 2018-01-01 10.0 100.0
1 2018-01-01 NaN NaN
2 2018-01-01 NaN NaN
3 2018-01-02 22.0 NaN
4 2018-01-02 NaN NaN
5 2018-02-03 10.0 240.0
6 2018-02-03 NaN NaN
7 2018-02-03 NaN NaN
dtypes
是float
。_ 现在,有了这fillna('')
件作品,你得到
Date Val_D Val_M
0 2018-01-01 10 100
1 2018-01-01
2 2018-01-01
3 2018-01-02 22
4 2018-01-02
5 2018-02-03 10 240
6 2018-02-03
7 2018-02-03
与object
dtypes。
推荐阅读
- ios - 如何在 iOS 上使用 Capacitor 保存文件?
- kotlin - 使用 buffer() 处理 Kotlin 流异常
- typescript - 由于打字稿中的运行时.bind(),如何在对象内的函数上声明不同的“this”?
- amazon-web-services - 如果任何新启动的 aws 资源没有特定标签,则发送通知
- html - 尽管进行浮动和显示,如何水平对齐两个 div(及其上方的文本)
- ide - SATA 选项 IDE 转 AHCI
- java - 如何从 TextLayout 正确创建整个形状?
- reactjs - 带有样式组件的样式 React-Hook-Form 控制器
- javascript - 将 div 的中心定位在坐标上
- c++ - 我可以在多线程情况下使用不加锁的 char 变量吗