r - 使用简单随机抽样定义样本量
问题描述
我正在尝试运行 PCA,但我有太多数据(20k 观察)分辨率太低。我正在使用 sample_n(df, replace = TRUE, n) [from dplyr] 来减小尺寸并更好地适应。
我的问题是:定义(或估计)样本量(n)的最佳技术是什么?如果我有 20k 个观测值(不同的地点,一年中的不同时间,相对均匀),我应该使用哪个截止值:5%、10%、20%?
你能给我参考一下你的建议吗?
预先感谢您的意见。
解决方案
我会用不同的样本大小制作一个循环,我不相信只有你可以用训练/测试做一个明确的截止/截止(虽然我们有管道,但你知道我的意思是 70/30 截止)。我唯一要检查的是 sample_n 是否仍然不是太聚集并且值的表示相对相等。
如果你对 k-means 聚类很坚定,我们有“肘部方法”,它有点主观,哪里是最好的聚类数量(尽管我们测量 RSS),你只需要尝试很多迭代和循环.
您知道使用神经网络,当您有例如一百万个观察值时,您可以将测试集减少到例如 5% 或 10%,因为在绝对值中您仍然有很多案例。
总结:我认为它需要像聚类中的肘法一样进行实际测试。因为它可能非常特定于您的数据。
我希望我的回答至少对你有一些价值,我没有期刊参考 atm。
推荐阅读
- django - 多对多关系查询在 post_save 信号上返回空查询集,但在 django shell 中不返回
- typescript - 将对象映射到接口等类属性
- ansible - 如何从ansible中的stdout json获取特定的属性值
- java - BufferedImage 没有出现在 JFrame 中
- python - 空白断言错误
- ember.js - 如何在ember链接中传递动态路由参数
- angular - 使用 Angular jasmine 测试获取请求返回未定义
- c# - 如何在我自己的 UWP 应用程序中从边缘原生应用程序重新创建反馈窗口?
- haskell - 什么是 setup.Cabal?为什么我会收到构建错误?
- javascript - http-proxy-middleware React Python Flask 未按预期工作