首页 > 解决方案 > 处理 doc2vec 培训中的附加信息

问题描述

我想在包含 2 位信息的项目上训练 doc2vec:a)文本(在法律领域)b)关键字和/或对从文本中提取的其他法律文本的引用我希望我的模型能够识别相似的文本根据,基本上,2个标准:a)文本相似性和b)关键字/参考的存在

对于这样的案例,是否有任何最佳实践?到目前为止我的想法: - 将文本和关键字/引用加入单个字符串并在此基础上训练模型 - 训练两个独立模型(将生成两个向量:用于文本和关键字

标签: doc2vec

解决方案


我假设“doc2vec”是指gensim类中“段落向量”算法的实现Doc2Vec

您的两种方法都可能有效并且值得测试。类中没有提供Doc2Vec明显“其他”数据的工具,但是您可以使该数据看起来像额外的单词标记或 extra tags,因此这些其他值的互相关会影响并嵌入其中结果向量空间。

具体来说,如果您希望将您的“关键字和/或参考”与整个文本一起建模,而不仅仅是它们可能碰巧出现在旁边的普通词(如果它们被附加到文本中),您尤其应该尝试以下一种或两种选择:

  • 使用 PV-DBOW 模式 ( dm=0),它不使用单词到附近单词的影响(在上下文中window

  • 将关键字或引用放置为 extra tags,以及唯一的文档 ID 标签(这是命名 doc-vectors 的经典方式)

(如果尝试两个单独的模型,您可能让基于自然文本的模型仍然使用受 a 影响的 PV-DM 模式window,而关键字/引用的本质上无序性质将使用 PV-DBOW 模式。)


推荐阅读