r - 用于过滤给定结果的显着单核苷酸多态性 (SNP) 的特征选择算法
问题描述
我对全基因组关联研究(GWAS)类型分析有点陌生。在我的一个项目中,我需要为给定的结果变量(例如:心脏病发作,编码为 0 或 1)选择最重要的 SNP(不是家庭,而是单个SNP)。在我的数据集中,SNP 被编码为 0,1 或 2。
请注意,我在数据库中有 700,000 多个 SNP 以及另外 30 个变量和 4800 多个参与者。我们将保留模型中的其他 30 个变量,因为我们的目标是选择 SNP 来调整这些变量的结果变量。此外,我们也有时间参加活动。
我知道在这种情况下,标准方法是一次对每个 SNP的结果变量(如在循环中)与其他 30 个变量一起运行cox 回归,并选择 p 值最低的 SNP(使用阈值) . 但是,这种方法效率不高,在普通计算机上需要几个月才能完成。
因此,我只是想知道在此范围内的文献中使用的特征选择方法是什么,如果您可以在此处发布一些参考资料,那就太好了。
非常感谢您的帮助。圣
解决方案
推荐阅读
- sql - 在 Big Query 中拆分以逗号分隔的电子邮件的表格
- sql - 使用 JSON_MODIFY 将多个对象附加到现有数组中
- c++ - 在 C++ 中一次将向量值写入多个文件
- laravel - 如何在 Laravel 视图中的 @if 中使用行数?
- android - Expo SDK 需要 Expo 才能运行。我是 react-native 的初学者?
- json - 使用 jq 向 json 数组添加新键
- python - 如何根据 pandas 中另一个数据帧(在某些操作之前和之后)的数据将一个数据帧分成两个?
- python - 替换numpy数组中的元素
- python - 如何检查条目中的值是否在列表中?
- haxe - 如何使用表达式宏返回类实例?