r - 执行正确数据分析的步骤
问题描述
我有一个包含 69 列和 50000 行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二元变量有一些缺失值(约 5%)。
我知道我应该将数据集划分为 train-test-validation 然后执行插补(我想使用带有方法的鼠标logreg
)。我对此有一些疑问:
我应该只对训练集还是对测试集和验证集进行插补?如果没有,我如何在测试和验证集中填写 NA?
我的教授告诉我应该减少数据集的维度。我可以使用 PCA 来执行此操作吗?我必须在插补之前还是之后这样做?我必须将其仅应用于火车测试还是其他两组?
此外,我曾尝试使用鼠标,但它在我的数据集上速度非常慢(估算一半数据大约需要 50 分钟)。你知道有什么方法可以加快这个过程吗?(我在这个论坛上读到过类似的方法,
quickpred()
但它需要指定最小相关性,我不知道它在我的数据集上有多少。
解决方案
就个人而言,这就是我会做的:
- 是的,我会在拆分数据集之前估算这些值。
- 在估算数据后,我会降低维度,并且还会移除接近零的方差预测变量。
- 我会使用这个包
caret
。看看这个。所有这些事情都可以在train
调用中用一行代码完成,比如preProcess = c( "nzv","knnImpute","pca")
推荐阅读
- ios - 如何在 swift 4 或 Swift 5 中下载 url 图像时放置动画占位符图像
- python-3.x - 如何在 python 中从 AWS API 网关下载 PDF 文件
- react-native - FlatList 不呈现行
- python - FileNotFoundError 使用 CHAID 渲染决策树
- google-bigquery - 将 XML 字符串作为列从 sql server 数据库加载到 bigquery 会返回错误 ##400 在查询执行期间超出资源
- twig - 如何要求2个条件
- c# - 如何获取有关 AnimationException 的更多信息?
- tfs - tfs 2013 中的 CICD
- ios - TIC SSL 信任错误/NSURLSession/NSURLConnection HTTP 加载失败 (kCFStreamErrorDomainSSL, -9813)
- flutter - Flutter 3D 立方体效果