首页 > 解决方案 > 具有多种数据类型的分类器(机器学习/数据科学)

问题描述

我是机器学习/数据科学的初学者。我准备了一个数据集,它包括部分分类列、日期时间对象和数字列。目标是一个多类项目(~ 6 个类)。我正在使用 Jupyter Notebook 和 Python。

到目前为止,我已经尝试了一个简单的示例,例如使用 SVM 学习器: https ://www.geeksforgeeks.org/multiclass-classification-using-scikit-learn/

如何处理不同的数据类型?有没有可以很好地处理所有类型的分类器?对于 datetime 对象,我的想法是将它们更改为自零以来的分钟数(〜 1972 年?)。然后我将只有分类和数字数据。

请帮帮我

标签: machine-learningclassificationdata-sciencemulticlass-classification

解决方案


分类列 - 一种热编码或响应编码。日期时间对象 - 是的,你是对的,而不是分钟让它成为年份(取决于你拥有的旧数据。)无论如何,你将进行标准化没关系,但对于像你提到的 1972 年这样的旧数据,它可以提供帮助如果需要特征重要性,您可以在几年内更好地可视化。此外,您可以选择年份 [1972 - 1982] 等等,看看什么最适合您。大多数时候它是特定于问题的。数字数据 - 您无需执行任何操作。最终,您必须将特征转换为数字,以便任何机器学习算法都可以工作。希望这能回答你的问题。


推荐阅读