首页 > 解决方案 > 如何从包含实体识别数据的 spacy.tokens.doc.Doc 应用单词共现?

问题描述

我创建了一个包含文章的 pandas 表,并应用了 spacy 实体识别模型来提取实体。现在我想用那些公认的实体来衡量词的共现。问题是实体保存在熊猫数据框的一列中,其中包含以下类型的数据:spacy.tokens.doc.Doc,我不知道如何将这些数据转换为共现矩阵。

感谢您的帮助!

import spacy
import pandas as pd

nlp = spacy.load("es_core_news_sm")

data1['nlp'] = data1.TEXTO.apply(lambda x: nlp(x))

for article in data1['nlp']:
   items = [x.text for x in article.ents]
   print(Counter(items).most_common(3))

现在我得到每篇文章中最常见的 3 个实体的列表,但我想将单词共现应用于结果,我不知道如何从 spacy.tokens.doc.Doc 获取矩阵。

标签: pythonspacynamed-entity-recognition

解决方案


推荐阅读