首页 > 解决方案 > 如何对数字标记形式的文本数据应用分类算法?

问题描述

我正在尝试解决分类问题:数据是来自电子商务平台的特定产品类别的评论。请在下面找到每个属性的描述:

示例数据集附在图片中。

图像包含由上述列组成的训练数据格式

但是,我正在考虑尝试 TF-IDF,因为文本格式不知道如何使用它。

我希望根据提供的文本列来预测类别。

标签: machine-learningdata-sciencetext-classificationtf-idfnaivebayes

解决方案


您可以将该列text用作多个功能,我建议您拆分该列(如何使用 pandas Python 在数据框中将字符串拆分为几列?):

#first load dataframe (I assume it is excel format)
import pandas as pd
df = pd.read_excel('YourPath', header=True)
df['Text'].str.split('', expand=True)

然后您可以将其转换为 (0,1) 数据框:

df1 = (pd.get_dummies(df.set_index(['id', 'category']).stack())
         .max(level=0)
         .rename(columns=int)
         .reset_index())

这将导致类似:

id category 5002  7400 ....
 1    A         1     0 .....
 2   B         0     1

其中列是数据框中的值,并且仅当该值存在于该类别中时才填充


推荐阅读