首页 > 解决方案 > 删除以数字开头的df中的所有整体并使用R组合单词的时态

问题描述

所以我有一个像这样的数据框:

word        count
employee    500       
jack        202       
employee's  199       
012hen      10
93          1
20          1
word        1
words       1
worded      1

所以我一直在尝试在这里使用 gsub,但我把它搞砸了。

基本上,我想删除word包含数字的任何条目,并且我想组合具有相同基数的单词条目。

所以在这里,员工和员工应该组合在一起。此外,单词、单词和措辞也应如此。

目标:

word        count
employee    699       
jack        202            
word          3

标签: rtexttidyverseword-cloudtidytext

解决方案


这是部分答案,因为我知道如何删除所有带有数字的条目。我不确定关于折叠派生词的第二部分。

要删除数字,您确实可以使用正则表达式。我更喜欢基于grepl.

df[!grepl("[0-9"], df$word),]
        word count
1   employee   500
2       jack   202
3 employee's   199
7       word     1
8      words     1
9     worded     1

推荐阅读