首页 > 解决方案 > 具有不同类型特征的数据集的分类

问题描述

我想对数据集做一个简单的分类。每个数据都有各种属性,例如日期时间(例如:2018-01-01 13:03:11)、人员 ID、一些二进制属性(将获取值 0 或 1)、一些浮点属性、一些属性可能有 NaN 等。

对于每个数据,都有我们想要预测的标签。

我想使用 python 和简单的回归方法。但是,由于属性类型不同,我认为我应该以某种方式更改它们,以便它们具有相同的格式,对吗?如果是的话,你能帮我怎么做吗?

例如,我的数据集可能如下所示:

> data_number     date              id        yes/no    duration   
> label 0          2018-01-01 15:29:29    1321      0         43.943    
> 0 1          2018-03-01 15:18:09    1334      1         98.007        
> 1 2          2017-01-01 16:29:29    1393      0         431.10        
> 1

标签为 0 或 1。

如果您还向我推荐一些他们将解释此类问题的网页,我将不胜感激。

谢谢

标签: pythonmachine-learningclassificationregressionnormalization

解决方案


识别问题类型:

在机器学习中,首先了解问题类型很重要。如果是连续输出 - [1,23,4,5,6, 5.5, 6.7,..],使用线性回归。如果它是分类输出 - [0,1,0,0,1...] 或 ['High', 'low', 'Medium', ...] 等,请选择 Logistic 回归。由于您的目标标签是 0 或 1,因此这是一个与逻辑回归或其他分类算法(SVM、决策树、随机森林)一起使用的问题。

数据清理/探索:

您必须将数据转换为数字格式或标准化格式以进行回归。 https://realpython.com/python-data-cleaning-numpy-pandas/

入门代码:

您似乎正在为您的问题寻找入门代码。你可以从 Kaggle 内核中找到它。这里有几个链接:


推荐阅读