首页 > 解决方案 > 用于过滤给定结果的显着单核苷酸多态性 (SNP) 的特征选择算法

问题描述

我对全基因组关联研究(GWAS)类型分析有点陌生。在我的一个项目中,我需要为给定的结果变量(例如:心脏病发作,编码为 0 或 1)选择最重要的 SNP(不是家庭,而是单个SNP)。在我的数据集中,SNP 被编码为 0,1 或 2。

请注意,我在数据库中有 700,000 多个 SNP 以及另外 30 个变量和 4800 多个参与者。我们将保留模型中的其他 30 个变量,因为我们的目标是选择 SNP 来调整这些变量的结果变量。此外,我们也有时间参加活动。

我知道在这种情况下,标准方法是一次对每个 SNP的结果变量(如在循环中)与其他 30 个变量一起运行cox 回归,并选择 p 值最低的 SNP(使用值) . 但是,这种方法效率高,在普通计算机上需要几个月才能完成。

因此,我只是想知道在此范围内的文献中使用的特征选择方法是什么,如果您可以在此处发布一些参考资料,那就太好了。

非常感谢您的帮助。圣

标签: rbioinformaticsfeature-selectioncox-regressiongwas

解决方案


推荐阅读