首页 > 解决方案 > 如何从看不见的文档中的列表中识别术语

问题描述

给定一个可以由一个、两个甚至三个单词组成的预定义术语列表,问题是计算它们在具有自由词汇表(即很多单词)的一组文档中的出现次数。

terms= [
[t1],
[t2, t3],
[t4, t5, t6],
[t7],...]

需要识别本条款的文件格式为:

docs = [
[w1, w2, t1, w3, w4, t7],        #d1
[w1, w4, t4, t5, t6, wi, ...],   #d2
[wj, t7, ..] ..]                 #d3

所需的输出应该是

[2, 1, 1, ...]

也就是说,第一个文档有两个感兴趣的术语,第二个有 1(由三个单词组成)等等。

如果需要考虑 1 个单词长度的术语,那么我可以轻松地按字母顺序对每个文档进行排序,删除重复的术语(集合),然后与 1 个单词大小的术语相交。统计重复词为搜索结果。

但是对于长度 >=2 而言,事情变得很棘手。

我一直在使用 gensim 形成一个词袋并在使用新短语时检测索引

例如

dict_terms = corpora.Dictionary(phrases)

sentence = unseen_docs[0]
idxs     = dict_terms[sentence]

然后考虑索引是否是连续的,然后计算所见的 idx,这意味着已经看到了一个术语,而不是其中的 2 o 3 个。

有什么建议么。

标签: pythonnlpinformation-retrieval

解决方案


在 Scikit-learn(一个非常流行的机器学习 Python 包)中有一个模块可以完全满足您的要求:

这是如何做到的:

首先安装sklearn

pip install scikit-learn

现在代码:

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(1, 3))

#Given your corpus is an iterable of strings, or a List of strings, for simplicity:
corpus = [...]

X = vectorizer.fit_transform(corpus)

print(X)

输出是一个大小为 mx n 的矩阵。例如:

[[0 1 1 1 0 0 1 0 1]
 [0 2 0 1 0 1 1 0 1]
 [1 0 0 1 1 0 1 1 1]
 [0 1 1 1 0 0 1 0 1]]

代表单词,代表文档。因此,对于每一行,您都有生成的词袋。

但是如何检索哪些单词出现在哪里呢?您可以使用以下方法获取每个“列”名称:

print(vectorizer.get_feature_names())

您将获得一个单词列表(这些单词按字母顺序排列)。

现在,假设您想知道每个单词在您的语料库中出现的次数(而不是在单个文档中)。

您收到的输出矩阵是一个“numpy”(另一个包)数组。这可以通过执行以下操作轻松展平(总结所有行):

import numpy as np #np is like a convention for numpy, if you don't know this already.

sum_of_all_words = np.sum(X, axis=0)

这会给你类似的东西:

[[1 4 2 4 1 1 4 1 4]]

单词的列顺序相同。

最后,您可以通过执行以下操作过滤字典中的术语:

dict_terms = corpora.Dictionary(phrases)
counts = {}
words = vectorizer.get_feature_names()
for idx, word in enumerate(words):
   if word in dict_terms:
      counts[word] = sum_of_all_words[0, idx]


希望这可以帮助!

在此处阅读有关 CountVectorizer 的更多信息:https ://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer

(另外,看看 TFIDFVectorizer,如果你使用的是词袋,tf-idf 在大多数情况下是一个巨大的升级)

我还建议您查看此页面以使用 sklearn 进行特征提取:https ://scikit-learn.org/stable/modules/feature_extraction.html


推荐阅读