word2vec - 是否有任何能够检测短语的预训练 word2vec 模型
问题描述
是否有任何预训练的 word2vec 模型,其数据包含单个单词或多个合并在一起的单词,例如“drama”、“drama_film”或“africanamericancommunity”。是否有任何这样的模型经过大量数据集训练,例如为 gloVE 训练的数据集?
解决方案
我在谷歌上进行了快速搜索,但不幸的是我找不到预训练的模型。训练您自己的模型来检测短语的一种方法是使用二元模型。所以,你可以拿一个大的维基百科转储,例如,预处理使用二元组并训练 word2vec 模型。一个可以帮助您实现这一目标的好 github 项目是https://github.com/KeepFloyding/wikiNLPpy 关于该主题的一篇不错的文章:https ://towardsdatascience.com/word2vec-for-phrases-learning-embeddings-for-多于一个词 727b6cf723cf
如google pre-trained word2vec中所述,google 的预训练模型已经包含一些短语(bigrams)。
推荐阅读
- jquery - 确认取消后如何防止进一步的jquery脚本
- angular - 在新标签页中打开重定向到登录页面
- django - 在 Django 2 中创建评论系统
- mongodb - 如何对 AggregateIterable 进行单元测试
- python - 如何从逐行排序 2d numpy 数组中返回索引?
- python - 使用 Javascript Websockets 将标头传递给 Django 通道以使用 Token 对用户进行身份验证
- laravel - Laravel - 未定义的变量:下拉菜单
- javascript - 什么是 git 和 docker 的 Strapi-3-beta 中的安装和开发工作流程
- javascript - 我如何将这个数字数组解码为字符
- angular - 链接更改后角度不呈现正确的html