首页 > 解决方案 > 使用简单随机抽样定义样本量

问题描述

我正在尝试运行 PCA,但我有太多数据(20k 观察)分辨率太低。我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更好地适应。

我的问题是:定义(或估计)样本量(n)的最佳技术是什么?如果我有 20k 个观测值(不同的地点,一年中的不同时间,相对均匀),我应该使用哪个截止值:5%、10%、20%?

你能给我参考一下你的建议吗?

预先感谢您的意见。

标签: rdplyrsamplingstatistics-bootstrapstatistical-test

解决方案


我会用不同的样本大小制作一个循环,我不相信只有你可以用训练/测试做一个明确的截止/截止(虽然我们有管道,但你知道我的意思是 70/30 截止)。我唯一要检查的是 sample_n 是否仍然不是太聚集并且值的表示相对相等。

如果你对 k-means 聚类很坚定,我们有“肘部方法”,它有点主观,哪里是最好的聚类数量(尽管我们测量 RSS),你只需要尝试很多迭代和循环.

您知道使用神经网络,当您有例如一百万个观察值时,您可以将测试集减少到例如 5% 或 10%,因为在绝对值中您仍然有很多案例。

总结:我认为它需要像聚类中的肘法一样进行实际测试。因为它可能非常特定于您的数据。

我希望我的回答至少对你有一些价值,我没有期刊参考 atm。


推荐阅读