machine-learning - 如何对数字标记形式的文本数据应用分类算法?
问题描述
我正在尝试解决分类问题:数据是来自电子商务平台的特定产品类别的评论。请在下面找到每个属性的描述:
- id:每个元组的唯一标识符。
- category:评论分为正面和负面评论两类。0 代表正面评价,1 代表负面评价。
- text:评论的标记化文本内容。
示例数据集附在图片中。
但是,我正在考虑尝试 TF-IDF,因为文本格式不知道如何使用它。
我希望根据提供的文本列来预测类别。
解决方案
您可以将该列text
用作多个功能,我建议您拆分该列(如何使用 pandas Python 在数据框中将字符串拆分为几列?):
#first load dataframe (I assume it is excel format)
import pandas as pd
df = pd.read_excel('YourPath', header=True)
df['Text'].str.split('', expand=True)
然后您可以将其转换为 (0,1) 数据框:
df1 = (pd.get_dummies(df.set_index(['id', 'category']).stack())
.max(level=0)
.rename(columns=int)
.reset_index())
这将导致类似:
id category 5002 7400 ....
1 A 1 0 .....
2 B 0 1
其中列是数据框中的值,并且仅当该值存在于该类别中时才填充
推荐阅读
- python - 将张量转换为 numpy 数组时出现值错误
- excel - excel visual basic中是否有任何功能可以查找没有空白行的列范围?
- c++ - c ++是否可以在不基于其基类的派生类中创建构造函数?
- python - pytest:测试数据库约束
- angular - 如何在可重用表中使用 matSort?
- javascript - 在javascript中分离一个嵌套数组?
- php - 在服务提供商中添加邮件配置在 laravel 7.0 中不起作用,它给出了不支持的邮件传输错误
- javascript - 使用 Firebase Emulator Suite 进行测试时,如何在 Firebase Cloud Functions 中使用 Jest 模拟函数?
- javascript - 为动态对象插入代理 localStorage
- regression - 如何在Stata中按“今天”导出回归模型结果和标签?