python - 如何在 pandas 上单独计算特征重复(或 Ridit 特征工程)
问题描述
我的机器学习项目似乎有多种用途,可以重复计数,也可以用作特征提取,幸运的是可以用于数值和分类,Ridit Analysys
我的数据似乎有很多重复,我想检查一下。这是我的数据
No feature_1 feature_2 feature_3
1. 67 45 56
2. 67 40 56
3. 67 40 51
这就是我想要的
No feature_1 feature_2 feature_3 duplication_1 duplication_2 duplication_3
1. 67 45 56 3 1 2
2. 67 40 56 3 2 2
3. 67 40 51 3 2 1
我所做的是
df1 = df.groupby(['feature_1']).size().reset_index()
df1.columns = ['customer_id', 'duplication_1']
df = df.merge(df1, on='customer_id', how='left')
df2 = df.groupby(['feature_2']).size().reset_index()
df2.columns = ['customer_id', 'duplication_2']
df = df.merge(df2, on='customer_id', how='left')
df3 = df.groupby(['feature_3']).size().reset_index()
df3.columns = ['customer_id', 'duplication_3']
df = df.merge(df3, on='customer_id', how='left')
但我正在寻找更快的方式更好的替代方案,特别是如果我们有大量的功能
解决方案
map
与value_counts
或用于transform
每列:
for i, x in enumerate(df.columns):
df['duplication_{}'.format(i + 1)] = df[x].map(df[x].value_counts())
#alternative
#df['duplication_{}'.format(i + 1)] = df.groupby(x)[x].transform('size')
print (df)
feature_1 feature_2 feature_3 duplication_1 duplication_2 \
No
1.0 67 45 56 3 1
2.0 67 40 56 3 2
3.0 67 40 51 3 2
duplication_3
No
1.0 2
2.0 2
3.0 1
推荐阅读
- sql-server - SQL Server:多行的单行输出
- python - 在 Snakemake 中使用 STAR 共享内存模块进行顺序对齐任务
- c# - 获取 razor 元素的 ID 以在 css 中使用 id 样式元素
- typescript - NextJS中服务器端渲染时如何访问存储?
- conda - jupyterhub 设置本地生成器
- flutter - 关闭(并重新打开)flutter modal_bottom_sheet(iOS 样式)后的白屏
- php - contact.php 不发送电子邮件字段
- python - 如何在 python 树视图中保持嵌套标题?
- python - 用python删除csv文件中的空间
- python - ImportError:Keras 需要 TensorFlow 2.2 或更高版本。在 Windows 上通过 `pip install tensorflow` 安装 TensorFlow