首页 > 解决方案 > 这是否可以通过数据操作将描述操作为具有相同含义但不同的单词

问题描述

我想从销售 ITIL、Prince2 和 PMP 等课程以及许多其他 IT 部门课程的网站复制数据,现在有 20,000 种不同课程的描述。

但是,我想使用 selenium 来抓取所有数据,但描述仍然受版权保护。

请让我知道如何将所有这些描述操作到具有相同含义但不同单词的数据中。

是否有任何 API 可以让我访问构建代码,该代码将通过使用它的同义词来帮助这些描述数据,或者可以将其语法更改为全新的句子但含义相同。

请让我知道从哪里开始。

谢谢,

标签: seleniumartificial-intelligence

解决方案


您所指的任务称为释义

该领域有很多研究。在arXiv中,您可以找到有关该主题的研究论文。但是,由于您要的是 API,我假设您不想自己实现这些模型。幸运的是,一些作者已经在 GitHub 上在线发布了他们的模型。(注意:有些是别人重新实现的。)

当您使用其中一些实现时,请注意大多数都提供预训练模型。请阅读用于训练的数据集,并尝试选择与您所面临的数据最相似的数据集。通过这样做,您的描述领域中的更多单词将可用,并且可以使用更多同义词。


推荐阅读