首页 > 解决方案 > 如何遍历系列中的列表

问题描述

我有一个series包含list内部的。每一个list都有series不同的长度。原因是因为我string原来里面有一个series,然后我应用了这个nltk word_tokenize()函数。

我尝试过使用apply() lambda函数,但没有成功。例如,要计算我尝试的唯一词的频率:

summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])

关于我的数据及其结构的一些见解:

在:

print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))

出去:

<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>

在:

print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])

出去:

(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type

我的目标是能够遍历所有行,因为我希望能够将令牌输入算法。

或者你们会推荐一种不同的方式来标记/使列表成为一个系列(所以它会是一个系列中的一个系列)?如果问题是无人监督的,那么标记化的方式是否重要?

谢谢

标签: pythonpandaslistnlpseries

解决方案


推荐阅读