r - 乘以不均匀的数据集
问题描述
我正在尝试将距离日志与不同国家的关税率进行交互,但我的数据框的维度略有不同。第一个数据帧是
'data.frame': 265 obs. of 32 variables:
第二个数据帧是
'data.frame': 263 obs. of 32 variables:
我一直无法找到它们的不同之处,但我的教授说在 STATA 中它们是在 R 中也应该找到的变通方法。你会使用什么变通方法?
解决方案
准备用于回归或其他地方的数据的标准方法是使用合并将所有数据放入同一个数据框中。您可以删除一个而不是另一个的行,或者将它们包含NA
在较小数据集中的位置中。在回归中,观察结果NA
将被丢弃,因此您选择哪个并不重要。
假设First
您的数据框有 265 个观测值,Second
而您的数据框有 263 个。在这两个数据框中,您都有一个名为“Year”的列,您将使用它来匹配。确保此列中没有缺失值。
FinalData <- merge(First,Second,by="Year")
默认情况下,这将删除任一数据集中缺失的行。然后使用FinalData
作为您的输入进行回归lm()
,您将不会有任何错误。
推荐阅读
- html - 视频无法在 Mozilla firefox 上播放
- python - xgboost 不使用 dask 以并行模式训练数据
- mysql - 通过构造函数参数 0 表示的不满足的依赖关系;嵌套异常是 org.springframework.beans.factory.NoSuchBeanDefinitionException
- grep - 在文件中搜索用户名,并对文件中每个用户的实例数进行排序?
- php - 根据按下的按钮使用 jQuery 将数据发送到另一个页面
- spring - Spring boot @Configurationproperties 大 yaml 文件 - 嵌套映射
- java - 如何添加红利?
- opencv - 亮度、YUV 或 HSL 使用哪种色彩空间?
- scala - 如何使用 Map 实例创建 scala 案例类实例
- php - 多个下拉菜单显示动态选项并包含系统中的目录名称?