python - 具有不同类型特征的数据集的分类
问题描述
我想对数据集做一个简单的分类。每个数据都有各种属性,例如日期时间(例如:2018-01-01 13:03:11)、人员 ID、一些二进制属性(将获取值 0 或 1)、一些浮点属性、一些属性可能有 NaN 等。
对于每个数据,都有我们想要预测的标签。
我想使用 python 和简单的回归方法。但是,由于属性类型不同,我认为我应该以某种方式更改它们,以便它们具有相同的格式,对吗?如果是的话,你能帮我怎么做吗?
例如,我的数据集可能如下所示:
> data_number date id yes/no duration
> label 0 2018-01-01 15:29:29 1321 0 43.943
> 0 1 2018-03-01 15:18:09 1334 1 98.007
> 1 2 2017-01-01 16:29:29 1393 0 431.10
> 1
标签为 0 或 1。
如果您还向我推荐一些他们将解释此类问题的网页,我将不胜感激。
谢谢
解决方案
识别问题类型:
在机器学习中,首先了解问题类型很重要。如果是连续输出 - [1,23,4,5,6, 5.5, 6.7,..],使用线性回归。如果它是分类输出 - [0,1,0,0,1...] 或 ['High', 'low', 'Medium', ...] 等,请选择 Logistic 回归。由于您的目标标签是 0 或 1,因此这是一个与逻辑回归或其他分类算法(SVM、决策树、随机森林)一起使用的问题。
数据清理/探索:
您必须将数据转换为数字格式或标准化格式以进行回归。 https://realpython.com/python-data-cleaning-numpy-pandas/
入门代码:
您似乎正在为您的问题寻找入门代码。你可以从 Kaggle 内核中找到它。这里有几个链接:
推荐阅读
- python - 用于 Python 脚本的 AutoIT
- php - Dart/Flutter - 发布到 PHP 服务器的文件大小为零字节
- reactjs - 从 API post 方法获取 html 标签到数据中
- discord - 自动停止不和谐的 groovy 机器人
- mongodb - 如何在 C# 中重命名 mongodb 中嵌套数组的文档字段
- javascript - 为什么在 JavaScript 中使用中间变量来返回数组?
- java - 透明背景,同时隐藏一个视图并将其显示为通知
- windows - 批处理窗口 - 用祖父文件夹名称递归替换所有 csv 的第一列
- flutter - 使用 Chewie Video 包时,我得到的 Flutter 在处理错误后被使用
- swift - showBluetoothAccessoryPicker 不显示在屏幕上