selenium - 这是否可以通过数据操作将描述操作为具有相同含义但不同的单词
问题描述
我想从销售 ITIL、Prince2 和 PMP 等课程以及许多其他 IT 部门课程的网站复制数据,现在有 20,000 种不同课程的描述。
但是,我想使用 selenium 来抓取所有数据,但描述仍然受版权保护。
请让我知道如何将所有这些描述操作到具有相同含义但不同单词的数据中。
是否有任何 API 可以让我访问构建代码,该代码将通过使用它的同义词来帮助这些描述数据,或者可以将其语法更改为全新的句子但含义相同。
请让我知道从哪里开始。
谢谢,
解决方案
您所指的任务称为释义。
该领域有很多研究。在arXiv中,您可以找到有关该主题的研究论文。但是,由于您要的是 API,我假设您不想自己实现这些模型。幸运的是,一些作者已经在 GitHub 上在线发布了他们的模型。(注意:有些是别人重新实现的。)
当您使用其中一些实现时,请注意大多数都提供预训练模型。请阅读用于训练的数据集,并尝试选择与您所面临的数据最相似的数据集。通过这样做,您的描述领域中的更多单词将可用,并且可以使用更多同义词。
推荐阅读
- javascript - 是否可以使用 css 为嵌套可折叠列表中的第一个子元素的整个块设置唯一的背景颜色?
- javascript - 从硬编码的用户中找到最大的数字
- android - Android 数据绑定中的 ButterKnife @BindString 等效项
- c# - Lightinject - 如何安全地开始新的范围外组合根?
- sql - GDELT 获得国家/地区年对中的主题计数
- powershell - Powershell 搜索旧文件,重命名并将新文件复制到所有找到的位置
- regex - 正则表达式:匹配括号内可能包含或不包含嵌套括号的所有单引号或双引号字符串
- eclipse - Eclipse 通用文本编辑器排序大纲
- json - Presto Json 解析
- php - 如何使用套件谈话 Netsuite API 从保存的搜索中获取摘要