python - 如何从包含实体识别数据的 spacy.tokens.doc.Doc 应用单词共现?
问题描述
我创建了一个包含文章的 pandas 表,并应用了 spacy 实体识别模型来提取实体。现在我想用那些公认的实体来衡量词的共现。问题是实体保存在熊猫数据框的一列中,其中包含以下类型的数据:spacy.tokens.doc.Doc,我不知道如何将这些数据转换为共现矩阵。
感谢您的帮助!
import spacy
import pandas as pd
nlp = spacy.load("es_core_news_sm")
data1['nlp'] = data1.TEXTO.apply(lambda x: nlp(x))
for article in data1['nlp']:
items = [x.text for x in article.ents]
print(Counter(items).most_common(3))
现在我得到每篇文章中最常见的 3 个实体的列表,但我想将单词共现应用于结果,我不知道如何从 spacy.tokens.doc.Doc 获取矩阵。
解决方案
推荐阅读
- python - 在python中将视图分配给同名与新名称有什么好处吗?
- c++ - 在一个函数中使用 lambdas 而不是将函数分散到多个函数中是个好主意吗?
- java - 用户在松弛块套件中选择的“无效块”错误
- javascript - React 构建页面/路由器/SEO/站点地图
- git - 如何删除旧的github作者并添加一个新的?
- c# - 在 asp.net 中的同一请求中发布文件和对象列表
- oracle - APEX 20.1 无法将 SWITCH 组件动态设置为 READONLY
- python - 访问列表中字典中的项目
- javascript - 我将如何旋转此文本以面向球体?
- python - 尝试在 python 中通过 AWS CDK 使用参数创建 EC2 时出现 jsii 错误