首页 > 解决方案 > 用于在我的 DataFrame R 中汇总数据的包

问题描述

我有一个庞大的数据集,其中包含有关美国 1774 个县的信息。变量包括收入四分位数、选民偏好、家庭收入中位数等。

我想知道是否有一个包可以让我快速查看例如收入超过一定数量并投票给共和党的县的数量,或者超过 50% 从事服务业工作的县的数量,而平均教育程度为 HS 或更低。

我知道我可以使用 dplyr 函数来做到这一点,但是,当我想用​​大量变量来做这件事时,这是非常耗时的。

感谢您的任何建议!

标签: rdataframedplyr

解决方案


我建议您尝试探索包

虽然您可以手动使用它来探索数据集的特定部分,但它还具有其他功能,可以通过闪亮 ( explore_shiny) 交互式地探索数据,并通过 rmarkdown ( ) 生成整个数据集的报告report

target通过将一个变量指定为并选择第二个变量,可以探索成对的变量(例如,被投票方的收入) 。但它并不总能为您提供所需的比较。因此,我建议将 explore 包作为理解数据的初始起点,但对于具体分析,您可能需要编写自己的 dplyr、ggplot 和/或 plotly 代码(或您喜欢的任何其他包)。

在其小插图中可以找到更多工作示例。


推荐阅读