首页 > 解决方案 > 使用文本数据和其他预测变量构建预测模型

问题描述

我正在尝试使用 scikit-learn 构建预测模型(随机森林、sgd 等),似乎每个模型都只允许您拟合文本数据,例如

classifier.fit(X,Y)

...哪里Y是目标并且X是文本特征向量(count_vec -> tf_idf)。有没有办法让模型除了文本特征矩阵还包含几个分类变量?我可以简单地将它们附加为右侧的新列X吗?

标签: pythonscikit-learnnlpprediction

解决方案


您将需要首先转换分类数据 - 将字符串类别简单地附加到来自 TfIdfCountVectorizer 等特征提取器的数字值将不起作用。这是一个关于将类别转换为数字特征数据的问题和答案,您可以将其附加到右侧。


推荐阅读