首页 > 解决方案 > 乘以不均匀的数据集

问题描述

我正在尝试将距离日志与不同国家的关税率进行交互,但我的数据框的维度略有不同。第一个数据帧是

'data.frame':   265 obs. of  32 variables:

第二个数据帧是

'data.frame':   263 obs. of  32 variables:

我一直无法找到它们的不同之处,但我的教授说在 STATA 中它们是在 R 中也应该找到的变通方法。你会使用什么变通方法?

标签: rdataframelinear-regression

解决方案


准备用于回归或其他地方的数据的标准方法是使用合并将所有数据放入同一个数据框中。您可以删除一个而不是另一个的行,或者将它们包含NA在较小数据集中的位置中。在回归中,观察结果NA将被丢弃,因此您选择哪个并不重要。

假设First您的数据框有 265 个观测值,Second而您的数据框有 263 个。在这两个数据框中,您都有一个名为“Year”的列,您将使用它来匹配。确保此列中没有缺失值。

FinalData <- merge(First,Second,by="Year")

默认情况下,这将删除任一数据集中缺失的行。然后使用FinalData作为您的输入进行回归lm(),您将不会有任何错误。


推荐阅读