首页 > 解决方案 > 调查大量二元变量和度量变量之间的相关性

问题描述

我正在尝试研究一个包含大约 260 个二进制变量和一个度量的数据集。这些是分类变量的虚拟变量,我想对度量变量进行回归。

我如何可视化它们?

我首先尝试了 plot() 但无法在整个数据集上使用它,即使我只使用一个视图我也无法解释它们。

在此处输入图像描述

我试过pairs()了,但出现了输出:

'plot.new() 中的错误:图边距太大'

我也尝试过sjp.corr()包装sjPlot,但它太小而且无法解释。

我在处理这样的数据方面真的没有经验,你会推荐我什么?您如何分析和解释数据(甚至是非图形数据)?您是否建议不要尝试以图形方式解释它?如果我尝试以非图形方式进行调查并使用 Hmisc 包的命令 rcorr() ,我也遇到了问题。然后我只有一个 3 x 260 的表,它省略了 258 行?我能做些什么?

我真的很抱歉,但我不能给你看数据:(但如果你还能给我一些建议,我会很高兴

标签: rbinarycorrelation

解决方案


您没有向我们提供数据,但是从您的情节中我可以得到一些分数

  1. 您有 2 个特征,其中一个是二进制 (1,0),而另一个是从 0 到 600 的整数。
  2. 当另一个特征在 0 到 150 之间时,0 和 1 的频率都更高。

因此,鉴于上述信息,我为自己生成了一个随机数据集,并根据我的数据回答您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中,这binary是一个只能包含 1 或 0 的字符串。价格是一个数值。

我能做的第一件事就是研究这个price特征,理解它的直方图,它可以帮助我得到它的分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是:

在此处输入图像描述

在下一步中,我希望比较 1s 和 0s 的频率

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它向我展示了它们的频率:

在此处输入图像描述


我怀疑回归是否是获得预测的好选择。我想说,这里最好的选择是使用rpart

library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是,不要忘记将test, 和train数据分开。


推荐阅读