r - ggplot boxplot:异常值太多?
问题描述
该数据集可在此处获得,但我仅使用 2010 年至 2016 年的数据集作为子集:https ://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results/
我正在尝试使用箱线图绘制不同性别的高度,并返回此图:
我觉得这是不正确的,因为异常值太多......(平均值=175,最小值=133,最大值=221)。我想知道是否需要调整 Y 轴以在此箱线图中包含更多数据点?如果是这样,我该怎么做?
这是我的代码:
ggplot(data = olympics, aes(x = Sex, y = Height) +
geom_boxplot() +
labs(title= "Height Distribution of Olympics Athletes by Gender")
另外,我想知道是否也可以用基本 R 语言绘制这样的图?谢谢!
解决方案
欢迎来到stackoverflow @VanLindert。获得帮助的最好方法是给我们运行代码来复制问题。datapasta
和包使这reprex
很容易做到。https://reprex.tidyverse.org/articles/articles/datapasta-reprex.html
我怀疑正在发生的事情是您正在重新调整 y 轴限制并且箱线图不断变化。当您使用plot + scale_y_continuous(limits = c(130, 225))
或速记plot + ylim(130, 225)
ggplot 过滤掉高于/低于 130 和 225 的值时,四分位数会重新计算。如果您只想将绘图放大到特定范围,您可以使用
plot + coord_cartesian(ylim = c(130, 225))
推荐阅读
- javascript - 如何创建一个接受多个参数的函数以在 JavaScript 中执行算术计算?
- javascript - 尝试制作导航栏但出现问题
- php - 仅支持纯文件资源流
- python - 如何为数据字典制作动画(即如何为多个 3D 数据点制作动画)?
- flutter - 有什么解决方案可以让我的 Flare Button 正常工作吗?扑
- javascript - 限制 Phaser3 更新率的方法?
- python - 这是什么错误,如何显示 .csv 文件中的前 5 个分数?
- visual-studio-code - 如何让 VSCode 使用 Chrome 进行调试
- postgresql - Azure Database for PostgreSQL 无法进行时间点还原
- wordpress - 如何在 wordpress 图库的所有图片中添加图片 alt 属性?