r - 调查大量二元变量和度量变量之间的相关性
问题描述
我正在尝试研究一个包含大约 260 个二进制变量和一个度量的数据集。这些是分类变量的虚拟变量,我想对度量变量进行回归。
我如何可视化它们?
我首先尝试了 plot() 但无法在整个数据集上使用它,即使我只使用一个视图我也无法解释它们。
我试过pairs()
了,但出现了输出:
'plot.new() 中的错误:图边距太大'
我也尝试过sjp.corr()
包装sjPlot
,但它太小而且无法解释。
我在处理这样的数据方面真的没有经验,你会推荐我什么?您如何分析和解释数据(甚至是非图形数据)?您是否建议不要尝试以图形方式解释它?如果我尝试以非图形方式进行调查并使用 Hmisc 包的命令 rcorr() ,我也遇到了问题。然后我只有一个 3 x 260 的表,它省略了 258 行?我能做些什么?
我真的很抱歉,但我不能给你看数据:(但如果你还能给我一些建议,我会很高兴
解决方案
您没有向我们提供数据,但是从您的情节中我可以得到一些分数
- 您有 2 个特征,其中一个是二进制 (1,0),而另一个是从 0 到 600 的整数。
- 当另一个特征在 0 到 150 之间时,0 和 1 的频率都更高。
因此,鉴于上述信息,我为自己生成了一个随机数据集,并根据我的数据回答您的问题。
dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
price=rnbinom(100, 100,0.5 ) )
在我的数据集中,这binary
是一个只能包含 1 或 0 的字符串。价格是一个数值。
我能做的第一件事就是研究这个price
特征,理解它的直方图,它可以帮助我得到它的分布。
library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
geom_histogram( position="identity", alpha=.5)+
geom_density()
结果是:
在下一步中,我希望比较 1s 和 0s 的频率
library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
geom_bar()
它向我展示了它们的频率:
我怀疑回归是否是获得预测的好选择。我想说,这里最好的选择是使用rpart
library(rpart)
model<-rpart(binary~price,dt, method="class" )
但是,不要忘记将test
, 和train
数据分开。
推荐阅读
- python - 如何将回调重定向到不同的子域
- asp.net-core - 检查用户是否已在网站或应用程序启动时登录 okta。这样我们就不需要再次登录
- postgresql - 如何为 postgresql jsonb 字段(数组数据)和文本字段创建索引
- c# - 使用 Control.BeginInvoke() 调用异步方法时如何防止警告 VSTHRD101?
- mysql - Mysql中select和group by的执行顺序
- azure - 使用 Azure Databricks 从 ADLS 访问数据
- javascript - 无法重新定义第三方模块的属性
- windows - ddev-magento2 启动失败:ddev-ssh-agent 启动失败:docker-compose 启动失败
- javascript - 在 ExtJS 7.1.0 中使用 Font-Awesome 4.7.0
- php - 通过文件/文件夹的名称从 google drive api 搜索文件或文件夹?