deep-learning - 如何使用监督学习预测短语是否与短文本或文章相关?
问题描述
我有一组短语和一组文本。我想预测一个短语是否与一篇文章相关。文章中未出现的短语可能仍然相关。
一些带注释的数据(不是真实的)示例如下:
示例 1
词组: 汽车
文字:在电动汽车市场上更实惠的选择中,2021 款特斯拉 Model 3 无疑是知名度最高的车型。它借鉴了该公司的 Model S 轿车和 Model X SUV 的一些造型线索,但以独特的室内设计和全玻璃车顶走自己的路。加速很快,Model 3 的底盘也很有趣——尤其是 Performance 车型,它采用了更具运动感的悬架和赛道驾驶模式。但电动汽车购买者更可能对行驶里程感兴趣,而不是速度或操控性,而 Model 3 也提供了这些。根据 EPA 的规定,基本型号可提供高达 263 英里的行驶里程,而更昂贵的远程型号每次充电可达到 353 英里。
标签:相关(PS:对于给定的文本,只有一个短语被标记为“相关”。所有其他都是“不相关”)
示例 2
短语:编程语言
文本: Python 3.9 使用基于 PEG 而不是 LL(1) 的新解析器。新解析器的性能与旧解析器大致相当,但在设计新语言特性时,PEG 形式主义比 LL(1) 更灵活。我们将在 Python 3.10 及更高版本中开始使用这种灵活性。
ast 模块使用新的解析器并生成与旧解析器相同的 AST。
在 Python 3.10 中,旧的解析器将被删除,所有依赖它的功能也将被删除(主要是解析器模块,它早已被弃用)。仅在 Python 3.9 中,您可以使用命令行开关 (-X oldparser) 或环境变量 (PYTHONOLDPARSER=1) 切换回 LL(1) 解析器。
标签:相关(即所有其他短语都是“不相关”)
我想我可能不得不使用例如预训练的 BERT,因为这种预测需要额外的知识。但这似乎不是一个标准的分类问题,所以我找不到开箱即用的代码。我可以就如何组合现有的轮子并训练它有一些建议吗?
解决方案
推荐阅读
- javascript - 使用 Jquery 从字典中选择单选选项
- python - 为什么我不能将 tkinter 模块与批处理文件一起使用
- excel - 识别 excel 中的无效单元格值(使用两张纸)
- javascript - 为什么在用户输入文本之前我需要的输入被突出显示?
- python - 添加或删除新值时在 Python 中重新排列列表
- javascript - mqtt.Client(streamBuilder, options) 在 nodejs 中使用 mqtt 的示例
- python - 仅将数据帧的一个子集附加到另一个数据帧
- rust - Rust async-std 奇怪的语法为了解决读写借用的冲突
- java - 将值设置为 Java 15 记录中的属性之一
- pandas - 数据框中下 x 行的频率