r - R:使用其他数据框中的值来匹配行中的列值
问题描述
我正在做一个项目,为此我编写了一些 R 代码。但是,我在尝试改进运行时遇到了一些麻烦。
我使用了两个数据框。必须注意,可以在随机行上找到匹配的观察值。
- df1(称为“ac”)包含历史需求实际值,其中包含“Region”、“Product”、“time”和“ac_qty”列。
- df2(称为“fc”)包含带有“Region”、“Product”、“time”和“fc_qty”列的预测。
我想创建第三个数据框(称为“er”),其中包含每个特定区域/产品/时间组合的所有错误(er_qty)。我已经成功了,使用以下代码:
# Examples of data frames 'ac' and 'fc':
ac <- data.frame("Region" = c("R1", "R2", "R3"),
"Product" = c("P1", "P2", "P3"),
"time" = c(1, 2, 2),
"ac_qty" = c(4, 2, 3) )
fc <- data.frame("Region" = c("R2", "R1", "R3"),
"Product" = c("P2", "P1", "P3"),
"time" = c(2, 1, 2),
"fc_qty" = c(2, 1, 3) )
# Copy data frame with forecasts, and expand (separated data frames for later processing)
er <- fc
# Finding corresponding ac_qty for fc_qty with given Region/Product/time:
for (i in 1:length(er$fc_qty)) {
er$ac_qty[i] <- ac$ac_qty[ac$Region == er$Region[i] & ac$Product== er$Product[i] & ac$time == er$time[i] ]
}
er$er_qty <- er$fc_qty- er$ac_qty
因为 for 循环需要在数据框中迭代超过 200,000 行,所以计算所有值需要大量时间。我需要大幅减少脚本的运行时间。我尝试使用 with() 函数,但验证后导致错误值。
er$ac_qty<- with(ac, ac_qty[which(Region == er$Region & Product == er$Product & time == er$time)])
此外,上面的代码给了我这个警告:“更长的对象长度不是更短的对象长度的倍数”
找到与区域、产品和时间列具有相同变量的预测 (fc_qty) 匹配的需求量 (ac_qty) 值的最佳方法是什么?
谢谢你。
解决方案
尝试使用 left_join(导入 dplyr 包),
在这里,我们根据它们的公共列连接两个数据框
er <- left_join(ac, fc, by = c("Region", "Product", "time") )
er <- mutate(er, er_qty = fc_qty - ac_qty) %>% select(-fc_qty,-ac_qty)
在第二行,我们使用 mutate 创建一个新列,然后使用 select 删除 fc_qty、ac_qty(选择是可选的)
希望这有帮助。
推荐阅读
- python - 将 pandas 数据帧保存到二进制文件时指定 dtypes
- keras - keras - 损失:nan,准确度为 0.000
- java - 我可以使用静态块中的字段并将其分配给类字段吗?
- java - 在 Java 中使用 Optional 和 lambdas
- flutter - 输入时出错:C:\src\flutter>flutter doctor
- python - 如何在正则表达式中匹配关键字之后和关键字之前隐藏文本?
- google-sheets - 谷歌表 - 基于另一个数据集比较项目并获得具有最大值的项目
- php - 转换为字符串时 (string)$value 和 "$value" 之间哪个更快
- ios - Swift UICollectionView 单元格过渡效果
- python - Arduino-Python 串行通信 HC-SR04