首页 > 解决方案 > 重复随机抽样;样本中位数的抽样分布

问题描述

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
sns.set()
population = 10000
repeat = 400
samplesize_list = [[10, 15, 25], [20, 30, 50], [30, 45, 75]]
label_list = ['50', '100', '150']
std_list = [500, 600, 700]
mean_list = [2000, 3000, 4000]
repeat_median = np.empty(repeat, dtype = float)
for j in range(len(samplesize_list)):
    size = samplesize_list[j]
    for i in range(repeat):
        sample_data = np.random.normal(mean_list[i], std_list[i], size)
        repeat.median[I] = np.median(sample_data)
plt.subplot(len(samplesize_list), 1, j+1)
sns.distplot(repeat_median, color = 'blue', label = label_list[j])
plt.legend(loc = "upper right")
plt.show()

需要关于重复随机抽样的问题的帮助!考虑包含 3 个年龄组的 10,000 人的人口规模:2000 人的“1-10”岁、3000 人的“11-20”岁和 5000 人的“21-30”岁,每个年龄组正态分布如下:1 岁-10':平均 = 2000,标准偏差 = 500,年龄 '11-20':平均 = 3000,标准偏差 = 600 和年龄'21-30':平均 = 4000,标准偏差 = 700。

目标:从总体中重复随机抽样 50、100 和 150 个样本,找出样本中位数月薪的抽样分布。说明:使用 400 个重复的随机抽样结果,并可视化模拟的抽样分布。

注意:每个样本中的年龄构成必须与人口中的年龄构成成比例 例如:在 50 个样本中,没有。年龄组“1-10”中的人数必须为 2000/10000 * 50 = 10

我似乎无法得到答案,不知道我哪里出错了!

我应该得到什么:

3 个图表 - size50、100、150 分别可视化了每个样本大小中样本中位数的抽样分布,同时考虑了每个样本大小的年龄组成。

标签: python

解决方案


推荐阅读