python - 使用文本数据和其他预测变量构建预测模型
问题描述
我正在尝试使用 scikit-learn 构建预测模型(随机森林、sgd 等),似乎每个模型都只允许您拟合文本数据,例如
classifier.fit(X,Y)
...哪里Y
是目标并且X
是文本特征向量(count_vec -> tf_idf)。有没有办法让模型除了文本特征矩阵还包含几个分类变量?我可以简单地将它们附加为右侧的新列X
吗?
解决方案
您将需要首先转换分类数据 - 将字符串类别简单地附加到来自 TfIdfCountVectorizer 等特征提取器的数字值将不起作用。这是一个关于将类别转换为数字特征数据的问题和答案,您可以将其附加到右侧。
推荐阅读
- python - 使用条件在 DataFrame 中查找值
- sql - 如果创建日期小于当前日期,则删除表
- postgresql - 当我尝试使用 Hibernate 插入数据时出现“表不存在”
- c# - 用逗号格式化数字的另一种方法
- pandas - 基于其他两列平均一列
- python - 如何创建一个布尔列,将下 n 行的值与行的实际值进行比较
- powershell - Powershell 脚本在周五运行多次
- python - 在 Flask App 中使用 Celery 进行同步测试
- haskell - 具有预期输入值的 IO Monad
- python-3.x - Python 3 http.server:指定接受的内容类型?