r - R嵌套的foreach循环
问题描述
我有一个输入数据集:
# environment
require(pacman)
p_load(
data.table
, doParallel
, foreach
)
doParallel::registerDoParallel(makeCluster(4))
# create input
runDT <- data.table(run = c(F,T,F,T)
, input1 = 1:4
, run_id = 1:4)
print(runDT)
run input1 run_id
1: FALSE 1 1
2: TRUE 2 2
3: FALSE 3 3
4: TRUE 4 4
这是另一个原始数据集:
dataDT <- data.table(
ID = 1:4
, c1 = c(1:4))
print(dataDT)
ID c1
1: 1 1
2: 2 2
3: 3 3
4: 4 4
我想运行嵌套的 foreach 循环,但它给了我一个错误:
# run
row_run <- runDT[run == T, run_id]
resultsDT <- foreach::foreach(
k = 1:length(row_run), .inorder = FALSE, .packages = c("data.table")) %dopar% {
# get the input for this run
inputDT <- runDT[run_id == row_run[k],]
# apply the input for all dataDT rows
result_run <- foreach::foreach(
j = 1:nrow(dataDT), .inorder = FALSE, .packages = c("data.table")) %dopar% {
dataDT_run <- dataDT[ID == j,]
dataDT_run[, c("o1", "run_id") := list(
c1 + inputDT[, input1]
, inputDT[, run_id]
)]
return(dataDT_run[, c("o1", "run_id"), with = FALSE])
}
result_run <- rbindlist(result_run)
return(result_run)
}
Error in { : task 1 failed - "could not find function "%dopar%""
resultsDT <- rbindlist(resultsDT)
print(resultsDT)
我期望看到的结果是:
resultsDT <- data.table(
o1 = c((1:4) + 2,c(1:4) + 4)
, run_id = c(rep(2,4),rep(4,4))
)
print(resultsDT)
o1 run_id
1: 3 2
2: 4 2
3: 5 2
4: 6 2
5: 5 4
6: 6 4
7: 7 4
8: 8 4
然后我将第一个更改%dopar%
为%:%
,但它给出了另一个错误:
Error in foreach::foreach(k = 1:length(row_run), .inorder = FALSE, .packages = c("data.table")) %:% :
no function to return from, jumping to top level
如何解决?
解决方案
但是如果我们这样做,runDT 会被复制到 RAM k * j 次吗?因为我的实际 runDT 很大。
我会回答你的附加问题
doParallel::registerDoParallel(makeCluster(4))
当您创建 4 个集群时,runDT 将复制到您的 4 个集群中。
inputDT <- runDT[run_id == row_run[k],]
此外,假设k*j
为 8,所有inputDT
尺寸均为100MB
.
size(Cluster1) : runDT + inputDT(100MB) + inputDT(100MB) + etc
size(Cluster2) : runDT + inputDT(100MB) + inputDT(100MB) + etc
size(Cluster3) : runDT + inputDT(100MB) + inputDT(100MB) + etc
size(Cluster4) : runDT + inputDT(100MB) + inputDT(100MB) + etc
推荐阅读
- javascript - 在javascript中按升序对随机生成的数组进行排序的问题
- python - 在 Google Colab 上训练 Yolov3-tiny,但在 4000 次迭代后停止。我如何继续训练?
- overriding - 如何覆盖 Prestashop 1.6 中的自定义模块管理控制器?
- ldap - 使用 Symfony 4 结合 JWT 身份验证和 LDAP
- logging - 如何使用日志解析器工作室为 X-Forwarded-For 字段选择源 IP?
- scala - 运行 Spark 聚合器示例
- python - 熊猫合并导致不需要的重复
- android - 反应本机应用程序闪烁一秒钟并停止
- json - orjson和json转储方法不一样python3.8
- android - 在活动之间切换而无需重新启动或重新加载活动