python - 卡方检验来测试我的数据是否符合泊松分布
问题描述
我有下面的数据集,其中包含 2018 年一周中每天发生的汽车盗窃事件的数量,我希望使用卡方检验来测试我的数据是否符合泊松分布。
DAY_WEEK DATE NUMBER_OF_OCCURRENCES
0 Monday 2018-01-01 82
1 Monday 2018-01-08 162
2 Monday 2018-01-15 147
3 Monday 2018-01-22 133
4 Monday 2018-01-29 176
... ... ... ...
360 Sunday 2018-12-02 78
361 Sunday 2018-12-09 205
362 Sunday 2018-12-16 77
363 Sunday 2018-12-23 84
364 Sunday 2018-12-30 59
在我的 df 中,每一行都相当于一年中的星期几。因此,第一行相当于第一个星期一,第 52 行相当于 52 星期一,依此类推。
谁能告诉我如何在 python 中使用卡方测试泊松?我已经在这个问题上待了几天,但我还没有找到解决办法。
非常感谢您提前!!!
解决方案
您需要将您的数据分类汇总:找到一个合理的 bin 宽度(例如 20 次盗窃),并计算每个 bin 中有多少数据点。将这些值与具有相同均值的泊松分布的预期值进行比较。这是执行卡方检验所需的比较。
请注意,为了保持统计上的合理性,您必须在与预期值进行比较之前选择您的 bin 宽度。在模态箱中选择可以为您提供相当数量值的东西,并以方便的速度减少。
此外,在一个或两个包含 0 或 1 个项目且预期值轻松低于 1 的 bin 之后切断(在右侧)卡方检验。
单独处理一周中的几天在质量上是相同的,但在数量上更大。一周中的每一天都有一系列单独的垃圾箱。您可以整天使用相同的 bin 宽度,也可以根据当天的流量强度进行调整。
为了便于说明,我们假设您发现每天有 6 个垃圾箱很方便。这将为您的卡方检验提供 42 个类别(6 箱/天 * 7 天)。
推荐阅读
- abstract - 如何在 Swift 中创建抽象方法来创建 BehaviorRelay?
- python-3.x - 创建可变大小数组
- angular7 - 模块没有导出成员 AnimationTransitionEvent
- sql - 如何获取分组列具有最大值的组
- python - Python:如何在现有 xlsx 上写入而不覆盖其他列
- hive - Jow 在 hive 中使用 json serde 提取字段
- kubernetes - Kubernetes 中的负载均衡器
- java - 如何过滤列表
用java流收集? - javascript - 通过 JSON 循环获取地理坐标(d3 和传单)
- installation - 无法安装下载的 rpm 包