首页 > 解决方案 > 如何在 pandas 上单独计算特征重复(或 Ridit 特征工程)

问题描述

我的机器学习项目似乎有多种用途,可以重复计数,也可以用作特征提取,幸运的是可以用于数值和分类,Ridit Analysys

我的数据似乎有很多重复,我想检查一下。这是我的数据

No   feature_1    feature_2   feature_3
1.          67           45          56 
2.          67           40          56
3.          67           40          51

这就是我想要的

No   feature_1    feature_2   feature_3    duplication_1    duplication_2   duplication_3
1.          67           45          56                3                1               2
2.          67           40          56                3                2               2
3.          67           40          51                3                2               1

我所做的是

df1 = df.groupby(['feature_1']).size().reset_index()
df1.columns = ['customer_id', 'duplication_1']
df = df.merge(df1, on='customer_id', how='left')
df2 = df.groupby(['feature_2']).size().reset_index()
df2.columns = ['customer_id', 'duplication_2']
df = df.merge(df2, on='customer_id', how='left')
df3 = df.groupby(['feature_3']).size().reset_index()
df3.columns = ['customer_id', 'duplication_3']
df = df.merge(df3, on='customer_id', how='left')

但我正在寻找更快的方式更好的替代方案,特别是如果我们有大量的功能

标签: pythonpandasdataframefeature-extraction

解决方案


mapvalue_counts或用于transform每列:

for i, x in enumerate(df.columns):
    df['duplication_{}'.format(i + 1)] = df[x].map(df[x].value_counts())
    #alternative
    #df['duplication_{}'.format(i + 1)] = df.groupby(x)[x].transform('size')
print (df)
     feature_1  feature_2  feature_3  duplication_1  duplication_2  \
No                                                                   
1.0         67         45         56              3              1   
2.0         67         40         56              3              2   
3.0         67         40         51              3              2   

     duplication_3  
No                  
1.0              2  
2.0              2  
3.0              1  

推荐阅读