python-3.x - Spacy lemmatization:单词“number”的错误结果
问题描述
我发现 spacy 错误地将“数字”一词词形还原为“麻木”,这导致我之后进行主题建模时主题不准确。下面是输出“numb”的示例代码。我试图用“word.lemma_.strip()”替换“word.lemma_”,但得到了相同的结果。
如何自定义 lemma_ 函数,以便“数字”在词形化后不会转换为“麻木”?
test = nlp('number')
for word in test:
print(word.lemma_)
##This output "numb"
更新:我试图将 'number' 的 POS 强制为 NOUN,但在 .lemma_ 函数之后仍然得到 'numb'。
from spacy.symbols import NOUN, PROPN
test = nlp('my phone number is 3')
for word in test:
if word.text == "number":
word.pos = NOUN
print(word.lemma_)
解决方案
推荐阅读
- amazon-web-services - AWS Elastic Beanstalk,将默认环境转换为 https
- c# - 如何检查 int 是否在列表中出现 3 次?
- java - 动态 JPA 查询:“找不到属性”
- c# - winform应用程序设计界面打不开
- spring-integration - 如何使用 gradlew 构建 Spring 集成示例?
- javascript - 在 JavaScript 中解密 Jwt 令牌
- c# - 我无法截屏
- python - 将pygame表面转换为图像?
- node.js - 如何使用 tf.loadLayersModel() 从 express 加载 tensorflow-js 权重?
- python - 如何分割手写数字