首页 > 解决方案 > 在熊猫中找到二元组

问题描述

我有一个包含 4 列的 DataFrame:'Headline'、'Body_ID'、'Stance'、'articleBody',其中 'Headline' 和 'articleBody 包含已清理和标记化的单词。我想使用 nltk 找到二元语法,并且到目前为止:

bigram_measures = nltk.collocations.BigramAssocMeasures()
articleBody_biGram_finder = df_2['articleBody'].apply(lambda x: BigramCollocationFinder.from_words(x))

我在应用 with 的最后一步时遇到articleBody_biGram_finder问题bigram_measures。我已经尝试使用列表理解对 lambda 进行多次迭代,但一无所获。

我最近的尝试:

df_2['articleBody_scored'] = score_ngrams(bigram_measures.raw_freq) for item in articleBody_biGram_finder

df_2['articleBody_scored'] = articleBody_biGram_finder.apply(lambda x: BigramCollocationFinder.score_ngrams(bigram_measures.raw_freq))

标签: python-3.xpandasnlpnltk

解决方案


df_2['bigram_scored'] = df_2['bigram_finder'].apply(lambda x: x.score_ngrams(bigram_measures.raw_freq))


推荐阅读