首页 > 解决方案 > 卡方检验来测试我的数据是否符合泊松分布

问题描述

我有下面的数据集,其中包含 2018 年一周中每天发生的汽车盗窃事件的数量,我希望使用卡方检验来测试我的数据是否符合泊松分布。

   DAY_WEEK DATE    NUMBER_OF_OCCURRENCES
0   Monday  2018-01-01  82
1   Monday  2018-01-08  162
2   Monday  2018-01-15  147
3   Monday  2018-01-22  133
4   Monday  2018-01-29  176
... ... ... ...
360 Sunday  2018-12-02  78
361 Sunday  2018-12-09  205
362 Sunday  2018-12-16  77
363 Sunday  2018-12-23  84
364 Sunday  2018-12-30  59

在我的 df 中,每一行都相当于一年中的星期几。因此,第一行相当于第一个星期一,第 52 行相当于 52 星期一,依此类推。

谁能告诉我如何在 python 中使用卡方测试泊松?我已经在这个问题上待了几天,但我还没有找到解决办法。

非常感谢您提前!!!

标签: pythonscipystatisticspoissonchi-squared

解决方案


您需要将您的数据分类汇总:找到一个合理的 bin 宽度(例如 20 次盗窃),并计算每个 bin 中有多少数据点。将这些值与具有相同均值的泊松分布的预期值进行比较。这是执行卡方检验所需的比较。

请注意,为了保持统计上的合理性,您必须在与预期值进行比较之前选择您的 bin 宽度。在模态箱中选择可以为您提供相当数量值的东西,并以方便的速度减少。

此外,在一个或两个包含 0 或 1 个项目且预期值轻松低于 1 的 bin 之后切断(在右侧)卡方检验。


单独处理一周中的几天在质量上是相同的,但在数量上更大。一周中的每一天都有一系列单独的垃圾箱。您可以整天使用相同的 bin 宽度,也可以根据当天的流量强度进行调整。

为了便于说明,我们假设您发现每天有 6 个垃圾箱很方便。这将为您的卡方检验提供 42 个类别(6 箱/天 * 7 天)。


推荐阅读