r - 使用简单随机抽样定义样本量

我正在尝试运行 PCA，但我有太多数据（20k 观察）分辨率太低。我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更好地适应。

我的问题是：定义（或估计）样本量（n）的最佳技术是什么？如果我有 20k 个观测值（不同的地点，一年中的不同时间，相对均匀），我应该使用哪个截止值：5%、10%、20%？

你能给我参考一下你的建议吗？

预先感谢您的意见。

标签： rdplyrsamplingstatistics-bootstrapstatistical-test

我会用不同的样本大小制作一个循环，我不相信只有你可以用训练/测试做一个明确的截止/截止（虽然我们有管道，但你知道我的意思是 70/30 截止）。我唯一要检查的是 sample_n 是否仍然不是太聚集并且值的表示相对相等。

如果你对 k-means 聚类很坚定，我们有“肘部方法”，它有点主观，哪里是最好的聚类数量（尽管我们测量 RSS），你只需要尝试很多迭代和循环.

您知道使用神经网络，当您有例如一百万个观察值时，您可以将测试集减少到例如 5% 或 10%，因为在绝对值中您仍然有很多案例。

总结：我认为它需要像聚类中的肘法一样进行实际测试。因为它可能非常特定于您的数据。

我希望我的回答至少对你有一些价值，我没有期刊参考 atm。