首页 > 解决方案 > 如何使用监督学习预测短语是否与短文本或文章相关?

问题描述

我有一组短语和一组文本。我想预测一个短语是否与一篇文章相关。文章中未出现的短语可能仍然相关。

一些带注释的数据(不是真实的)示例如下:

示例 1

词组: 汽车

文字:在电动汽车市场上更实惠的选择中,2021 款特斯拉 Model 3 无疑是知名度最高的车型。它借鉴了该公司的 Model S 轿车和 Model X SUV 的一些造型线索,但以独特的室内设计和全玻璃车顶走自己的路。加速很快,Model 3 的底盘也很有趣——尤其是 Performance 车型,它采用了更具运动感的悬架和赛道驾驶模式。但电动汽车购买者更可能对行驶里程感兴趣,而不是速度或操控性,而 Model 3 也提供了这些。根据 EPA 的规定,基本型号可提供高达 263 英里的行驶里程,而更昂贵的远程型号每次充电可达到 353 英里。

标签:相关(PS:对于给定的文本,只有一个短语被标记为“相关”。所有其他都是“不相关”)

示例 2

短语:编程语言

文本: Python 3.9 使用基于 PEG 而不是 LL(1) 的新解析器。新解析器的性能与旧解析器大致相当,但在设计新语言特性时,PEG 形式主义比 LL(1) 更灵活。我们将在 Python 3.10 及更高版本中开始使用这种灵活性。

ast 模块使用新的解析器并生成与旧解析器相同的 AST。

在 Python 3.10 中,旧的解析器将被删除,所有依赖它的功能也将被删除(主要是解析器模块,它早已被弃用)。仅在 Python 3.9 中,您可以使用命令行开关 (-X oldparser) 或环境变量 (PYTHONOLDPARSER=1) 切换回 LL(1) 解析器。

标签:相关(即所有其他短语都是“不相关”)

我想我可能不得不使用例如预训练的 BERT,因为这种预测需要额外的知识。但这似乎不是一个标准的分类问题,所以我找不到开箱即用的代码。我可以就如何组合现有的轮子并训练它有一些建议吗?

标签: deep-learningnlpbert-language-model

解决方案


推荐阅读