首页 > 解决方案 > 创建散点图以显示相关性

问题描述

我正在尝试使用我的大型数据集创建一个散点图,显示湿度和降雨之间的相关性。但是,我认为如果我使用特定位置一个月内的平均湿度和降雨量总和来计算相关性会更好,因为现在降雨的每日数据点为零,因为大多数日子不下雨。

这是我现在拥有的当前散点图

问题是我不确定如何总结一年零一个月的降雨量,并同样找到湿度的平均值。然后通过这样做得到两个相应的数据点(月平均湿度:月降雨量总和)以在散点图中使用

数据集的小例子:最后一列是湿度和第二次降雨,第一列是日期。

图像

谢谢,非常感谢任何帮助

标签: r

解决方案


如果没有数据可以使用,我建议使用dplyr包的group_by()功能按月分组,然后使用summarize()计算平均和总湿度值。


编辑:我在澳大利亚政府气象局网站上追踪了过去 13 个月的降雨量和下午 3 点的相对湿度数据。

我分别使用data.tabletidyverse包进行数据摄取和数据清理。这是我使用的代码:

library(data.table)
library(tidyverse)
df <- as_tibble(fread('IDCJDW2125.csv'))
df <- add_column(df, Month = format(as.Date(df$Date), '%B %Y'), .after = 'Date') %>%
  group_by(Month) %>%
  summarize(sum(`Rainfall (mm)`), mean(`3pm relative humidity (%)`))
colnames(df)[2:3] <- c('Total Rainfall (mm)', 'Average 3 PM Relative Humidity (%)')
ggplot(df, aes(x = `Total Rainfall (mm)`, y = `Average 3 PM Relative Humidity (%)`)) +
  geom_point()

数据如下所示:

# A tibble: 6 x 21
  Date  `Minimum temper~ `Maximum temper~ `Rainfall (mm)` `Evaporation (m~ `Sunshine (hour~ `Direction of m~ `Speed of maxim~ `Time of maximu~ `9am Temperatur~
  <chr>            <dbl>            <dbl>           <dbl>            <dbl>            <dbl> <chr>                       <int> <chr>                       <dbl>
1 2018~              9.2             21.4               0              4                9.6 WSW                            41 15:42                        15.7
2 2018~              9.1             19                 0              5.2              7.9 ENE                            33 14:48                        14.1
3 2018~              9.4             23.4               0              2                9.5 WNW                            57 23:07                        15  
4 2018~             11.3             20.7               0              5.2              8.6 WNW                            54 9:56                         15.5
5 2018~              6.9             20.9               0              5.6             10.3 NE                             41 16:38                        12.6
6 2018~             11.9             19.7               0              4                4   NW                             69 15:16                        13.6
# ... with 11 more variables: `9am relative humidity (%)` <int>, `9am cloud amount (oktas)` <int>, `9am wind direction` <chr>, `9am wind speed (km/h)` <int>, `9am
#   MSL pressure (hPa)` <dbl>, `3pm Temperature (°C)` <dbl>, `3pm relative humidity (%)` <int>, `3pm cloud amount (oktas)` <int>, `3pm wind direction` <chr>, `3pm
#   wind speed (km/h)` <chr>, `3pm MSL pressure (hPa)` <dbl>

虽然平均下午 3 点相对湿度与每月总降雨量之间的相关性并不强,但正相关关系更为明显。


推荐阅读