首页 > 解决方案 > R unnest_token() 与 Python pandas str.split() 中的正则表达式行为

问题描述

我想使用 python pandas 复制类似于下面的 df_long 的结果。这是R代码:

df <- data.frame("id" = 1, "author" = 'trump', "Tweet" = "RT @kin2souls: @KimStrassel Anyone that votes")

unnest_regex  <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"

df_long <- df %>%
  unnest_tokens(
    word, Tweet, token = "regex", pattern = unnest_regex)

如果我理解正确, unnest_regex 的编写方式也可以找到数字(在空格和少量标点符号中)。我不明白为什么 R 会将字符串中的数字视为不匹配条件,例如“@kin2souls”。因此,我们在 df_long 中得到了一个结果,其中 @kin2souls 单独作为一行。但是,当我尝试在熊猫中复制它时:

unnest_regex = r"([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"

df = df_long.assign(word=df['Tweet'].str.split(unnest_regex)).explode('word')
df.drop("Tweet", axis=1, inplace=True)

它将“@kin2souls”字符串拆分为“@kin”和“souls”作为单独的行。此外,由于 unnest_regex 使用捕获括号,在 Python 中,我将其修改为:

unnest_regex = r"[^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@])"

这是为了避免空字符串。我想知道这是否也是一个促成因素。但是,“2”处的拆分仍然发生。任何人都可以在 Python 中提出一个解决方案并可能解释为什么 R 会这样吗?谢谢!

这是Python中的数据:

data = {'id':[1], "author":["trump"], "Tweet": ["RT @kin2souls: @KimStrassel Anyone that votes"]}
df = pd.DataFrame.from_dict(data)

和预期的结果:

data_long = {'id':[1,1,1,1,1,1], "author":["trump","trump","trump","trump","trump","trump"], "word": ["rt", "@kin2souls", "@kimstrassel", "anyone", "that", "votes"]}
df_long = pd.DataFrame.from_dict(data_long)

标签: pythonrregexpandastidytext

解决方案


str splitexplode的组合应该复制您的输出:

(df
 .assign(Tweet=df.Tweet.str.lower().str.split(r"[:\s]"))
 .explode("Tweet")
 .query('Tweet != ""')
 .reset_index(drop=True)
)


    id  author  Tweet
0   1   trump   rt
1   1   trump   @kin2souls
2   1   trump   @kimstrassel
3   1   trump   anyone
4   1   trump   that
5   1   trump   votes

我利用了文本由空格分隔的事实,以及偶尔:

或者,您可以使用str extractall - 我觉得它有点长:

(
    df.set_index(["id", "author"])
    .Tweet.str.lower()
    .str.extractall(r"\s*([a-z@\d]+)[:\s]*")
    .droplevel(-1)
    .rename(columns={0: "Tweet"})
    .reset_index()
)

不确定如何unnest_token使用正则表达式 - 也许其他人可以解决这个问题


推荐阅读