r - 是否有一个 R 循环函数(data.table)可以在不超过内存限制的情况下运行 100 多个“gam”结果?
问题描述
空间插值使用gam
陈述
我希望使用广义加法模型(GAM)获得许多空间插值输出。预测单个污染地图没有问题,但是,我需要 100 多张地图。如果可能的话,我想自动化实现并在不超过内存限制的情况下获得结果。
使用 GAM 的空间插值过程(mgcv
包)
只是为了让您知道,以下是获取插值地图的基本步骤。
- 获取污染监测站的 X、Y 坐标
- 获取每个站点的污染数据
- 将污染数据添加到包含 X、Y 坐标的数据框中
gam(pollution ~ s(X,Y, k=20))
为每个污染列运行- 创建一个空数据框,
min
并将max
X、Y 坐标作为空间范围 predict
使用和gam
结果预测空间范围- 在所有污染领域运行相同的作业
我将展示我如何处理它的动手示例。
样本数据
举个例子,我创建了一个如下所示的数据集。从 中df
,您会发现我有X
Y
和 3 个污染变量。
library(data.table)
library(mgcv)
X <- c(197745.8,200443.8,200427.6,208213.4,203691.1,208303.0,202546.4,202407.9,202564.8,194095.5,194508.0,195183.8,185432.5,
190249.0,190927.0,197490.1,193551.5,204204.4,199508.4,210201.4,212088.3,191886.5,201045.2,187321.7,205987.0)
Y <- c(451633.1,452496.8,448949.5,449753.3,449282.2,453928.5,452923.2,456347.9,461614.8,456729.3,453019.7,450039.7,449472.0,
444348.1,447274.4,442390.0,443101.2,446446.5,445008.5,446765.2,449508.5,439225.3,460915.6,447392.0,461985.3)
poll1 <- c(34,29,29,33,33,38,35,30,41,43,35,34,41,41,40,36,35,27,53,40,37,32,28,36,33)
poll2 <- c(27,27,34,30,38,36,36,35,37,39,35,33,41,42,40,34,38,31,43,46,38,32,29,33,34)
poll3 <- c(26,30,27,30,37,41,36,36,35,35,35,33,41,36,38,35,34,24,40,43,36,33,30,32,36)
df <- data.table(X, Y, poll1, poll2, poll3)
我是如何工作的
1.硬编码
如果您查看下面的代码,您会意识到我将相同的作业复制并粘贴到所有变量中。这将很难实现很多变量。
# Run gam
gam1 <- gam(poll1 ~ s(X,Y, k=20), data = df)
gam2 <- gam(poll2 ~ s(X,Y, k=20), data = df)
gam3 <- gam(poll3 ~ s(X,Y, k=20), data = df)
# "there are over 5000 variables that needs looping
# Create an empty surface for prediction
GAM_poll <- data.frame(expand.grid(X = seq(min(df$X), max(df$X), length=200),
Y = seq(min(df$Y), max(df$Y), length=200)))
# Predict gam results to the empty surface
GAM_poll$gam1 <- predict(gam1, GAM_poll, type = "response")
GAM_poll$gam2 <- predict(gam2, GAM_poll, type = "response")
GAM_poll$gam3 <- predict(gam3, GAM_poll, type = "response")
2. 使用for
循环
相反,我制作了一个列表并尝试循环所有变量以获得结果。它本身当然没有问题,但是迭代多个变量会占用所有内存(这是我所经历的)。
# Run gam using list and for loop
myList <- list()
for(i in 3:length(df)){
myList[[i-2]] <- gam(df[[i]] ~ s(X,Y, k=20), data = df)
}
# Create an empty surface for prediction
GAM_poll <- data.frame(expand.grid(X = seq(min(df$X), max(df$X), length=200),
Y = seq(min(df$Y), max(df$Y), length=200)))
# Predict gam results to the empty surface
myResult <- list()
for(j in 1:length(myList)){
myResult[[j]] <- predict(myList[[j]], GAM_poll, type = "response")
}
寻求帮助
- 有没有更好的方法来获得
gam
多个变量的结果? - 有没有办法在实现过程中不超过内存限制?
你能帮我吗data.table
,purrr
用户?
解决方案
我创建的解决方案仅将最新预测保存在内存中,并将其他预测保存到磁盘,然后再用下一个解决方案覆盖它。这些文件以名为 results 的文件夹中模型的列名命名。我还融化了 data.table,主要是因为我认为这样的代码更清晰一些。
library(data.table)
library(mgcv)
X <- c(197745.8,200443.8,200427.6,208213.4,203691.1,208303.0,202546.4,202407.9,202564.8,194095.5,194508.0,195183.8,185432.5,
190249.0,190927.0,197490.1,193551.5,204204.4,199508.4,210201.4,212088.3,191886.5,201045.2,187321.7,205987.0)
Y <- c(451633.1,452496.8,448949.5,449753.3,449282.2,453928.5,452923.2,456347.9,461614.8,456729.3,453019.7,450039.7,449472.0,
444348.1,447274.4,442390.0,443101.2,446446.5,445008.5,446765.2,449508.5,439225.3,460915.6,447392.0,461985.3)
poll1 <- c(34,29,29,33,33,38,35,30,41,43,35,34,41,41,40,36,35,27,53,40,37,32,28,36,33)
poll2 <- c(27,27,34,30,38,36,36,35,37,39,35,33,41,42,40,34,38,31,43,46,38,32,29,33,34)
poll3 <- c(26,30,27,30,37,41,36,36,35,35,35,33,41,36,38,35,34,24,40,43,36,33,30,32,36)
df <- data.table(X, Y, poll1, poll2, poll3)
# melt the data.table
df <- melt.data.table(df, id.vars = c('X', 'Y'))
dir.create('results')
gam1 <- list()
for(i in unique(df$variable)){
gam1[[i]] <- gam(value ~ s(X,Y, k=20), data = df[variable == i])
GAM_poll <- data.table(expand.grid(X = seq(min(df$X), max(df$X), length=200),
Y = seq(min(df$Y), max(df$Y), length=200)))
GAM_poll[, 'prediction' := predict(gam1[[i]], GAM_poll, type = "response")]
write.csv(GAM_poll$prediction, paste('results/model_', i, '.csv'), row.names = FALSE)
}
推荐阅读
- flutter - Flutter Rive - 在状态机中更改数字输入时动画不会改变
- javascript - 如何隐藏删除按钮
- excel - 后期绑定字典 VBA 的问题
- android - 将多操作系统引擎插件添加到 Eclipse 2021-06
- python - 使用多处理在进程之间进行交互?
- python-sphinx - 狮身人面像链接到静态文件
- javascript - 如何使用 jQuery 获得跨度的这个值?
- python - scikit learn Tfidf_Vectorizer函数如何计算TF-IDF?因为我通过手动计算得到了不同的结果
- c++ - 如何使用 Arduino 步进电机前后移动?
- python - 如何在 BS4 中添加嵌套的 DIV