首页 > 解决方案 > 确定活动发生的可能性

问题描述

我有一个监视器,可以测量我们附近的灰尘浓度,从这个数据集中我将它分为三个场景,看看哪些场景产生的灰尘最多。但是,当我这样做时,子集具有不同的样本大小(即,这些活动发生时的不同小时数,这是预期的)。我如何比较哪种情况更有可能导致大量灰尘?

下面的例子:

Recorded data has sample size of 1000 hours. 
    Subset 1 (General car movements only) - 700 hours 
    Subset 2 (Construction vehicles movement + general car movement) - 200 hours 
    Subset 3 (Road closure with no vehicle movement) - 100 hours

Number of hours exceeded dust concentration X amount which I set to determine if the activity 
is dusty:

    Subset 1  - 100 hours 
    Subset 2  - 50 hours 
    Subset 3  - 10 hours

The % of exceedance occurrence for each subset is:
    Subset 1 - 100/160*100 = 63%
    Subset 2 - 50/160*100 = 31%
    Subset 3  - 10/160*100 = 6%

但我认为我不能说子集 1 更有可能导致大量灰尘,因为它的样本量比子集 2 多 500 小时......我的统计知识非常少,非常希望收到任何关于如何解决这个问题:)

谢谢!

标签: statisticsdatasetdata-science

解决方案


推荐阅读