首页 > 解决方案 > 计算具有某些单词的列中的频率

问题描述

R新手,需要一些帮助!我有一个很难转移的大型数据集(我不得不将其折叠到 10,000 行)。

我基本上需要在列中获取红色和蓝色的频率,但值的范围可以是“RED”、“RED.”、“Red”、“red.”、“rEd”等。有多种方法据说很难向下滚动并输入每一个。

我试过这个:

table(DATAFRAME$COLOR=="RED")
table(DATAFRAME$COLOR=="RED.")
table(DATAFRAME$COLOR=="Red")
table(DATAFRAME$COLOR=="Red.")
table(DATAFRAME$COLOR=="rEd/Blue")

有没有更简单的方法来获取任何具有红色/蓝色的值?

标签: r

解决方案


这应该能够做你需要的,虽然没有 MWE 我不能确定

df<-data.frame(color =c("red", "Red", "Red", "RED", "rED", "blue", 'yelow'), var1=1:7)

sum(grepl("red", df$color, ignore.case = T))

推荐阅读