r - 在 R 中的大型数据集上获取所有可能的组合
问题描述
我有一个包含超过 1000 万条记录和 20 个变量的大型数据集。我需要从这 20 个变量中获取 11 个变量的所有可能组合,并且对于每个组合,还应该显示频率。
我在 plyr 包和 table() 函数中尝试过 count() 。但是它们都无法获得所有可能的组合,因为组合的数量非常多(大于 2^32 组合)并且大小也很大。
我想要频率大于 0 的前三个变量的所有可能组合。
解决方案
好的。我想我知道你需要什么。如果您说要按表中的 N 个类别的行计数,则可以使用data.table
包来执行此操作。它将为您提供表中存在的所有组合的计数。by
只需在争论中列出所需的类别
DT<-data.table(val=rnorm(1e7),cat1=sample.int(10,1e7,replace = T),cat2=sample.int(10,1e7,replace = T),cat3=sample.int(10,1e7,replace = T))
DT_count<-DT[, .N, by=.(cat1,cat2,cat3)]
推荐阅读
- android - Dagger 2 Injector 并使用 IntKey 绑定 IntoMap
- php - 1X5矩阵树结构PHP数组
- node.js - 在NodeJS中检测一个数字是否可以被100整除
- python - 需要登录时使用 python 从 cloud.google.com 下载公共文件
- windows - 如何缩短 Git Bash 提示 (Windows)
- sql - 奇怪的 SQL 远程查询
- python - Python 子进程 - 在创建的新命令提示符中运行第二个命令
- swift - Firestore 收集侦听器大量读取
- php - 如何获取实例类名
- c# - BackgroundService 结束他分配的任务后会发生什么?