nlp - 如何使用余弦相似度对文本进行分类?
问题描述
我有一个典型的情绪分析任务,我的数据集由文本和 3 个类(负面、中性、正面)组成。我使用 Bert 句子转换器对文本进行了矢量化,并计算了我的 test_embeddings: output image的余弦相似度度量。现在,我如何对每个测试句子进行分类并计算准确率?
解决方案
我实际上使用本指南解决了这个问题:sbert.net/docs/usage/semantic_textual_similarity.html
找到测试/训练数据集的余弦相似度对,找到每个测试输入的最高对,构建一个简单的分类器(匹配最高值和余弦对中的类),并获得准确度。
推荐阅读
- npm - 在生产中运行 npm run prod 时出错
- three.js - Three.js glTF模型居中但在圆形曲线而不是中心点上旋转
- spring-boot - 在不停止和重新启动引导应用程序的情况下重新加载属性
- amazon-web-services - 带有请求承诺的 AWS Lambda
- d - 为什么'在编译时无法读取 args'
- sql-server - 如何修复错误消息 102,级别 15,状态 1,第 2 行“,”附近的语法不正确?
- masonite - 带斜线的 Masonite 路由参数不起作用
- javascript - 如何在不刷新页面的情况下清除表单数据
- powershell - 从巨大的文本文件中查找 IP 和用户名
- react-admin - react-admin 上的谷歌分析