r - 如何获得一辆汽车的mpg比其他汽车最低的概率?
问题描述
我正在使用它来获取汽车 mpg 的平均值和标准偏差
df1 <- mtcars; df1$rownames = rownames(df1)
df2 <- mtcars; df2$rownames = rownames(df2)
df2$mpg = df2$mpg + rnorm(nrow(df2),0,3)
data = rbind(df1, df2)
我使用一个函数来获取汽车的 mpg 低于其他汽车的概率
df = plyr::ddply(data,~rownames,summarise,mean=mean(mpg),sd=sd(mpg))
f <- function(x, y){
n1 = df$mean[x]; n2 = df$mean[y]; sd1 = df$sd[x]; sd2 = df$sd[y]
pnorm(0, mean = n1 - n2, sd = sqrt(sd1^2 + sd2^2))
}
res <- outer(X = 1:nrow(df), Y = 1:nrow(df), f)
dimnames(res) <- list(df$rownames, df$rownames)
res <- data.frame(res)
res <- tibble::rownames_to_column(res, 'p1')
datalong_2 <- tidyr::gather(res, 'p2', 'value', -1) # output
现在我想让一辆车的mpg比其他汽车最低的概率。我绑了这个:
cars = unique(datalong_2$p1)
win <- data.frame(sapply(1:length(cars), function(x) setNames(prod(subset(datalong_2, p1 == cars[x] & p2 != cars[x])$value),cars[x])))
colnames(win) <- "prob"
win$prob <- round(win$prob,4)
但是概率加起来不等于一。如何更改此代码以获取每辆车的 mpg 最低概率的表?
解决方案
这是dplyr/data.table
返回概率的方法的比较
library(dplyr)
library(data.table)
library(tidyr)
library(tibble)
# // input data
df <- mtcars[1] %>%
rownames_to_column("car")
-测试
# // dplyr
system.time({
out <- df %>%
uncount(10000, .id = "run") %>%
rowwise() %>%
mutate(sim_mpg = rpois(1, lambda = mpg)) %>%
group_by(run) %>%
arrange(sim_mpg) %>%
mutate(lowest_mpg = row_number() == 1) %>%
group_by(car) %>%
summarize(chance_lowest = mean(lowest_mpg),
orig_mpg = first(mpg))
})
# user system elapsed
# 1.715 0.074 1.787
# // data.table
system.time({
df_expand <- setDT(df)[rep(seq_len(.N), 10000)][, run := rowid(car)]
out2 <- df_expand[, sim_mpg := rpois(1, lambda = mpg), 1:nrow(df_expand)
][order(sim_mpg), lowest_mpg := seq_len(.N) == 1 ,run
][, .(chance_lowest = mean(lowest_mpg), orig_mpg = first(mpg)), .(car)]
})
# user system elapsed
# 0.704 0.050 0.757
sum(out$chance_lowest)
#[1] 1
推荐阅读
- mysql - 如何使用带有左连接的最新 MYSQL 版本以及两个聚合函数来分组
- python - 如何使用 Selenium 查找表单的所有元素
- git - Github 操作:在 workflow_run 上读取分支更改
- javascript - 谷歌表单脚本编辑器根据答案发送多封电子邮件
- javascript - 如何连接两个axios get调用的返回,Nuxt.js站点地图
- pytorch - 权重更新循环中的 pytorch is_leaf 属性
- python - 我想在 mysql 中使用 python 得到这样的输出
- wordpress - BP 搜索不可见
- python - Pycharm没有导入标准库
- dom4j - 如何在不使用 dom4j 修剪的情况下获取元素的原始值?