machine-learning - 具有多种数据类型的分类器(机器学习/数据科学)
问题描述
我是机器学习/数据科学的初学者。我准备了一个数据集,它包括部分分类列、日期时间对象和数字列。目标是一个多类项目(~ 6 个类)。我正在使用 Jupyter Notebook 和 Python。
到目前为止,我已经尝试了一个简单的示例,例如使用 SVM 学习器: https ://www.geeksforgeeks.org/multiclass-classification-using-scikit-learn/
如何处理不同的数据类型?有没有可以很好地处理所有类型的分类器?对于 datetime 对象,我的想法是将它们更改为自零以来的分钟数(〜 1972 年?)。然后我将只有分类和数字数据。
请帮帮我
解决方案
分类列 - 一种热编码或响应编码。日期时间对象 - 是的,你是对的,而不是分钟让它成为年份(取决于你拥有的旧数据。)无论如何,你将进行标准化没关系,但对于像你提到的 1972 年这样的旧数据,它可以提供帮助如果需要特征重要性,您可以在几年内更好地可视化。此外,您可以选择年份 [1972 - 1982] 等等,看看什么最适合您。大多数时候它是特定于问题的。数字数据 - 您无需执行任何操作。最终,您必须将特征转换为数字,以便任何机器学习算法都可以工作。希望这能回答你的问题。
推荐阅读
- pjsip - 邀请后在 SIP OK 中缺少 SDP 信息
- semantic-web - DL Expressivity 在 Protégé Ontology Metrics 视图中不可用
- java - 在没有编辑文本的情况下捕获软键盘上的完成操作?
- visual-studio-code - vscode 和 plantuml 2.11.1 无法包含环境变量指定的文件
- python - PermissionError 与 RandomizedSearchCV
- gradle - IDEA 以及如何禁用 gradle 包装器生成?
- recursion - 通过 html 标签的值进行抓取链接提取器
- github - 如何使用 git 从旧提交中提取代码?
- laravel-5.8 - 为 foreach() laravel5.8 提供的参数无效
- python - pygame install 返回错误 no version 并且没有令人满意的分发