r - - 如何排除列中的条件重复?
问题描述
我想在重复少于 5 次的数据框备注栏中删除...
我在 new_frame 中查看观察的频率和形成该列的组数量,但是我希望这发生在我的 df 原始文件中。
使用此命令后,我将通过检查备注计数进行检查,继续出现少于 5 次重复的组合并弄乱所有信息..
df1<-df[!(df$X<5),]
check <- data.frame(table(df1$X))
check[check$Freq < 5,]
最后我想删除所有小于 5 的观察结果,有人可以帮我吗?
#
问题是我在通过连接其他 5 个 df 列形成的 X 列中对相同的动物有不同的值。在第 XI 列中具有这种类型的组合(动物 1 = 列 x = 1 10 2014 1 19,相同的动物 1 = 列 x = 1 10 2015 1 18)。我想清理那些在 X 列中重复少于 5 次的组合的一部分的动物)我无法重现你刚刚向我展示的组和频率。我有 127,000 条信息,当我计算基于 X 列的分组时,我得到 970 个组,清理后(<5)我得到 700 个组合,重复 > 5 次......我只想和那些X列这组700个组合的一部分......我不知道我是否能解释清楚,对不起..如果你能帮助我,我很麻烦##
解决方案
这应该这样做。获得频率表后,您可以提取频率 < 5 的值,然后用于%in%
仅保留原始值中df
与这些名称匹配的值。
df[df$X %in% check$Var1[check$Freq < 5], ]
推荐阅读
- mongodb - MongoDB 多数阅读关注
- powershell - Powershell如何在同一脚本中从两个不同的OU获取计算机列表
- r - 在R中按列计算值的频率
- serverless - Serverless Fn::Join 不在 serverless-local 上运行
- c# - Blazor WASM - 发布后应用程序出错(我认为是由于缓存)
- javascript - 如何在点击时自动下载 PDF,而不是使用 js 在新选项卡中打开它?
- c# - Google PageSpeed Insights - 是否有任何选项可用于删除未使用的 css 和 js 代码作为 .Net MVC 中构建/捆绑配置的一部分
- python-3.x - 为什么 ThreadPool 比 pandas read_pickle 上的 Process Pool 慢?
- matplotlib - 将 p 值合并到箱形图或小提琴图中
- c++ - 运行时检查失败 #2 - 变量“检查”周围的堆栈已损坏。尝试使用 WinHttpReadData 函数读取数据时