首页 > 解决方案 > 什么是 R 函数唯一和聚合的 Stata 等价物?

问题描述

我正在尝试将一些 R 文件转换为 Stata 文件。

这些是 R 中的代码(x2016_precinct_president是数据文件)

votesCounty <- aggregate(X2016_precinct_president$votes, by=list(
                        X2016_precinct_president$county_fips,
                        X2016_precinct_president$candidate_fec), FUN=sum)
counties <- (unique(votesCounty$Group.1))

我尝试在 Stata 中执行以下操作

egen votes_sum = sum(votes), by (county_fips candidate_fec)
keep votes_sum county_fips candidate_fec 
duplicates drop county_fips, force

但问题是这些操作后留下的观察数量在 Stata 和 R 中是不同的。有谁知道这里发生了什么?

标签: rstata

解决方案


尝试:

折叠(总和)票数,按(county_fips 候选人_fec)重复丢弃

stata 中的 Collapse 命令按您指定的不同级别聚合数据。您可以选择是否需要聚合时感兴趣的变量的总和/平均值/等。

如果您想按观察单位访问聚合组信息,您可以使用 egen sum 和 bysort,以便您可以使用它来按每个详细的观察单位进行计算。例如:如果您想计算每个县受过大学教育的人的百分比并拥有县范围内的信息,您将使用 bysort 按县分组并计算县的总数,并将该总数作为单独的变量。然后,您可以计算每个县受过大学教育的人的百分比。

聚合是指您只需要按县划分的受过大学教育的人的平均人数/总数。在那种情况下,你只会崩溃。


推荐阅读