python - 如何遍历系列中的列表
问题描述
我有一个series
包含list
内部的。每一个list
都有series
不同的长度。原因是因为我string
原来里面有一个series
,然后我应用了这个nltk
word_tokenize()
函数。
我尝试过使用apply() lambda
函数,但没有成功。例如,要计算我尝试的唯一词的频率:
summary_word_frequency = df.summary_word_tokens.apply(lambda x: [x.value_counts() for x in df.summary_word_tokens])
关于我的数据及其结构的一些见解:
在:
print(type(df.summary_word_tokens))
print(type(df.summary_word_tokens[0]))
print(type(df.summary_word_tokens[0][1]))
出去:
<class 'pandas.core.series.Series'>
<class 'list'>
<class 'str'>
在:
print(df.summary_word_tokens.shape)
print(df.summary_word_tokens[0])
print(df.summary_word_tokens[0][1])
出去:
(1000,)
['cake', 'type', 'is', 'cake', 'chocolate']
type
我的目标是能够遍历所有行,因为我希望能够将令牌输入算法。
或者你们会推荐一种不同的方式来标记/使列表成为一个系列(所以它会是一个系列中的一个系列)?如果问题是无人监督的,那么标记化的方式是否重要?
谢谢