首页 > 解决方案 > 如何计算文本但不包括括号中的单词?

问题描述

我想生成一个新列,显示数据框中每部电影的字数,但是有些电影的名称包括括号,我不想计算括号内的单词,我该如何编码?顺便说一句,我正在尝试使用 str.count 函数,并展示了计算所有单词的代码。

movie <- movie %>% mutate(words.of.title = str_count(str_trim(film), "\\S+"))

示例数据框

标签: rrstudio

解决方案


这是一个选项,用于检查以空格 ( \\s) 或字符串开头( ^)分隔的单词(字母数字字符)的计数

library(tidyverse)
movie %>% 
    mutate(words.of.title=str_count(str_trim(film), "(^|\\s)[[:alnum:]]+"))

推荐阅读