python - spaCy BERT 词典
问题描述
我正在尝试访问 spaCy BERT 字典,但我收到了来自模型的奇怪输出。例如对于en_core_web_lg
模型,我可以像这样提取约 130 万个令牌
nlp = spacy.load("en_core_web_lg")
tokens = [t for t in nlp.vocab]
当我对en_trf_bertbaseuncased_lg
模型做同样的事情时,我只得到 478 个令牌,
nlp = spacy.load("en_trf_bertbaseuncased_lg")
tokens = [t for t in nlp.vocab]
解决方案
我对像“en”这样的标准模型也有类似的问题。有趣的是,长度完全相同。
import spacy
nlp = spacy.load("en")
len([t for t in nlp.vocab])
478
原来像“en”这样的模型不包含真正的向量(参见https://github.com/explosion/spaCy/issues/1520)。所以我想这也是伯特的情况。
推荐阅读
- node.js - 阅读谷歌日历活动
- c - 打印文本文件的最后几行
- asp.net-core - System.InvalidOperationException:在配置时尝试使用上下文
- node.js - POST 请求重定向到 Nginx 代理和 NodeJS 中的 GET
- android - Android:React-native-share 在尝试 Share.open 时返回“错误:系统失败”
- sql - 如果仅在特定日期之后存在,如何选择行?
- react-native - React Native Router Flux 和 React Native Meteor 初始场景渲染问题
- php - 看不到“+”号,将数据从 AJAX 传递到 PHP
- php - API 调用不回显项目
- windows - 如何确定 Windows 10 上可执行二进制文件的体系结构