首页 > 解决方案 > 如何使用余弦相似度对文本进行分类?

问题描述

我有一个典型的情绪分析任务,我的数据集由文本和 3 个类(负面、中性、正面)组成。我使用 Bert 句子转换器对文本进行了矢量化,并计算了我的 test_embeddings: output image的余弦相似度度量。现在,我如何对每个测试句子进行分类并计算准确率?

标签: nlpvectorizationtext-classificationcosine-similarity

解决方案


我实际上使用本指南解决了这个问题:sbert.net/docs/usage/semantic_textual_similarity.html

找到测试/训练数据集的余弦相似度对,找到每个测试输入的最高对,构建一个简单的分类器(匹配最高值和余弦对中的类),并获得准确度。


推荐阅读