spacy - Spacy Dutch noun_phrases 使用 nl_core_news_sm 返回空列表
问题描述
我想使用 spacy 的模型 nl_core_news_sm 提取荷兰语文本的名词短语。它返回一个空列表另一方面,等效的英语模型 en_core_web_sm 确实提供了 noun_chunks (noun_phrases) 的列表
这是正常的行为吗?即荷兰语模型不包括名词短语分隔符而英语模型呢?还是我做错了什么?
string='''In een wereld waarin je wordt overspoeld met informatie, is het prettig om een nieuwsbron te hebben met heldere stukken, die de ruimte laten om je eigen mening te vormen.'''
nlp = spacy.load('nl_core_news_sm')
print(dir(doc))
print(doc.noun_chunks)
list_chunks=[chunk for chunk in doc.noun_chunks]
for chunk in doc.noun_chunks:
print(chunk.text)
这里的结果是 list_chunks 是 [] 当然循环中没有打印任何内容
我使用 dir(doc) 来比较可用的方法,以便与英文模型进行比较。他们是一样的。
nlp_en = spacy.load('en_core_web_sm')
string='''They normally organises a wide range of activities for kids in the summer holidays. Due to the virus, these have all been cancelled'''
doc2=nlp_en(string)
print(dir(doc2))
print(doc2.noun_chunks)
for chunk in doc2.noun_chunks:
print(chunk.text)
在英语中它有效。
有什么想法?
解决方案
我可以告诉你,名词chuck tokenizer 根本还没有在荷兰语模型中实现。这不是一个错误。它只是必须完成。因此,阅读此内容的人请检查问题的日期。显然,太空人会这样做,但可能需要一段时间。
推荐阅读
- javascript - 为什么 ViewChild 不适用于 angular8+ 中的 attr.id?
- sql - 如何使用 SQLite 制作 Django Window 表达式?
- javascript - 使用带有拉脱维亚字母表的 Intl.Collator 的意外输出
- python - 删除 PIP 中已失效的依赖项的所有包
- android - 为不同的通知按钮捕获不同的意图操作
- r - 如何使用 R 中的伯努利试验/成功概率来模拟收入?
- android - 约束布局 - 将 Viewpager 放置在另一个视图之上
- reactjs - 对在两个单独的函数中使用“useState”感到困惑
- vim - 在 vim 中突出显示 f 键搜索
- javascript - 使用重定向时,我的状态不会更新,所以我从不重定向