python - 将 KMeans 应用于 pandas DataFrame
问题描述
#KMEANS
import collections
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.002)
kmeans=KMeans(n_clusters=2)
kmeans.fit(X_train)
labels = kmeans.predict(X_test)
//X and y in train_test_split stands for:
X=newTotalDataset.drop('identifier',axis=1)
y=newTotalDataset['identifier']
我有一个具有 44 个特征和 30000 行的数据框
打印(收藏。计数器(标签))。最后一个是一个标识符,表示该行是分配给人员 1 还是人员 0。我在训练和测试中拆分了我的数据集,并删除了我的最后一个特征。
问题是当我打印“标签”时,因为它告诉我所有行都属于人 0
标签中 0 和 1 的计数器的结果是:Counter({0: 103})
怎么可能?怎么了?
解决方案
如果您在预测之前有标签,您想要进行监督学习并且您没有使用好的算法,请查看一些模型,例如:
- 逻辑回归
- 随机森林分类器
- 支持向量机分类器
和别的
推荐阅读
- windows - 当 Windows Installer 在已安装的旧版本中具有相同 GUID 时,会使用旧名称创建文件夹
- angular - Angular 5 收到此错误找不到类型为“object”的不同支持对象“[object Object]”
- javascript - 无法使用某些类 jQuery 获取最接近的元素
- java - WSO2 ESB 无法调用 ActiveMQ
- php - MySQL 5.7 相当于 PHP 的 json_decode()?
- mysql - 从 Mysql 到 postgresql 的数据迁移
- performance - SignalR 和连接过度响应
- elasticsearch - 如何将 kubernetes 集群中的 fluentd 中的数据发送到集群外远程独立服务器中的 elasticsearch?
- javascript - 每次发生写入时,Firebase 云功能更新都无法正常工作
- javascript - 功率表的最后一位