首页 > 解决方案 > 在 Pandas 数据框中对行进行分组,应用自定义函数并将结果作为行存储在新数据框中

问题描述

我有一个包含三列的熊猫数据框 df_org - 索引(整数)、标题(字符串)和日期(日期)。 在此处输入图像描述

我有一个方法process_title(text),它将一个字符串作为输入并标记化,删除停用词并对输入字符串进行词形还原并将单词作为列表返回。

from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

def process_title(text):
    tokens = word_tokenize(text.lower())
    try:
        tokens.remove("google")
        tokens.remove("search")
        tokens.remove("-")
    except:
        pass

    lemm_tokens = list(map(lemmatizer.lemmatize,tokens))
    without_stop = [word for word in lemm_tokens if word not in stop_words]
    return without_stop

我想要一个包含三列的新数据框 - 字(字符串)、频率(整数)、日期(日期)。Word列包含 process_title(text) 返回的列表中的单词(单个单词),Frequency列包含该单词在给定日期出现的频率,Date列包含日期。

    ---------------------------------------
    |  Word    | Frequency     |   Date   |
    ---------------------------------------
    | computer | 1             |2021-08-01|
    | science  | 1             |2021-08-01|
    | something| 5             |2021-08-02|
.....

如何将df_org数据框沿日期分组并创建新数据框?可以在不影响最终要求的情况下对process_title(text)方法进行更改。

标签: pythonpandasdataframenltkdata-analysis

解决方案


您可以使用该DataFrame.explode方法,后跟groupbyand size

我将只使用一个简单.str.split的函数而不是你的函数,因为我不知道word_tokenize从哪里来。

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'title': ['Hello World', 'Foo Bar'], 'date': ['2021-01-12T20:00', '2021-02-10T22:00']})

In [3]: df['words'] = df['title'].apply(lambda s: process_title(str(s)))

In [4]: df
Out[4]:
         title              date           words
0  Hello World  2021-01-12T20:00  [Hello, World]
1      Foo Bar  2021-02-10T22:00      [Foo, Bar]

In [5]: exploded = df.explode('words')

In [6]: exploded
Out[6]:
         title              date  words
0  Hello World  2021-01-12T20:00  Hello
0  Hello World  2021-01-12T20:00  World
1      Foo Bar  2021-02-10T22:00    Foo
1      Foo Bar  2021-02-10T22:00    Bar

In [7]: exploded.groupby(['date', 'words']).size()
Out[7]:
date              words
2021-01-12T20:00  Hello    1
                  World    1
2021-02-10T22:00  Bar      1
                  Foo      1
dtype: int64


推荐阅读