doc2vec - 处理 doc2vec 培训中的附加信息
问题描述
我想在包含 2 位信息的项目上训练 doc2vec:a)文本(在法律领域)b)关键字和/或对从文本中提取的其他法律文本的引用我希望我的模型能够识别相似的文本根据,基本上,2个标准:a)文本相似性和b)关键字/参考的存在
对于这样的案例,是否有任何最佳实践?到目前为止我的想法: - 将文本和关键字/引用加入单个字符串并在此基础上训练模型 - 训练两个独立模型(将生成两个向量:用于文本和关键字
解决方案
我假设“doc2vec”是指gensim
类中“段落向量”算法的实现Doc2Vec
。
您的两种方法都可能有效并且值得测试。类中没有提供Doc2Vec
明显“其他”数据的工具,但是您可以使该数据看起来像额外的单词标记或 extra tags
,因此这些其他值的互相关会影响并嵌入其中结果向量空间。
具体来说,如果您希望将您的“关键字和/或参考”与整个文本一起建模,而不仅仅是它们可能碰巧出现在旁边的普通词(如果它们被附加到文本中),您尤其应该尝试以下一种或两种选择:
使用 PV-DBOW 模式 (
dm=0
),它不使用单词到附近单词的影响(在上下文中window
)将关键字或引用放置为 extra
tags
,以及唯一的文档 ID 标签(这是命名 doc-vectors 的经典方式)
(如果尝试两个单独的模型,您可能让基于自然文本的模型仍然使用受 a 影响的 PV-DM 模式window
,而关键字/引用的本质上无序性质将使用 PV-DBOW 模式。)
推荐阅读
- android - SAF(存储访问网络)自定义选项
- griddb - 如何使用 matplotlib 为存储在 GridDB 容器中的推文数据绘制词云?
- docker - 在 Dockerfile 中更改 `/etc/passwd` 的权限
- python - 将 Glob 中的多个 CSV 与多索引连接起来
- javascript - HTML 和 Javascript 空表单验证不起作用
- airflow - DAG 在追赶时运行失败,但如果我清除它们 ro
- css - 带有 InputBase 的图标按钮
- python - 当日期范围在过滤器中时,如何抓取历史数据?
- laravel - 无法在 Laravel Vue Axios 中更新具有相同值的多行
- jpa - wildfly-preview-25.0.0.Final - Jakarta 'org.hibernate.ogm.jpa.HibernateOgmPersistence' 未找到