python - 如何在聚类分析中处理空值?
问题描述
我从事金融科技业务,并且拥有如下客户级别的数据:
客户ID | 第1天 | 第2天 | 第3天 | 第4天 |
---|---|---|---|---|
1 | 50 | 0 | 钠 | 5 |
2 | 钠 | 10 | 钠 | 钠 |
3 | -100 | -100 | 5 | 0 |
4 | 10 | -60 | 0 | 100 |
5 | 20 | 钠 | -20 | 钠 |
在上述数据中,行代表客户唯一 ID,列代表一年中的特定日期,值代表该特定日期的贷记和借记净额。
例如,对于 customer ID = 1
on day1
,credit = 100
因此debit = 50
净值为 50。零表示credit = debit
当天。
NaN
在我的数据中,仅显示在那一天,客户没有从应用程序进行任何贷记或借记交易,而这些知识对我来说很重要。让NaN
成为NO INTERACTION的实例。
现在我的问题是如何告诉 scikit-learn python 中的 K-Means 将 NaN 值视为无交互?我不想消除NaN
价值观。我也不想NaN
用平均值或中值替换值。NaN
值对我来说是附加信息,我如何保留这些信息?
解决方案
推荐阅读
- grafana - TimeStream + Grafana:无法识别数据中的系列
- excel - 如何使用 VBA 将行从一个工作表复制到另一个工作表(从特定行开始)?
- java - 如何在 Java 中将值存储在不同的数组中?
- html - justify-content-between 不适用于导航栏
- react-native - 将图像作为请求正文添加到 http 请求
- components - 在我使用 Component 之后,这种智能感知不起作用。问题是什么?
- rust - 有没有办法在 proc-macro crate 中具有公共特征?
- javascript - 使用 Jquery 添加按钮与调用函数时在 HTML 中显式添加的区别
- python - 使用正则表达式根据限制字符拆分字符串
- c++ - 是否可以从 c++ 类模拟私有/受保护的方法而不从它继承?