首页 > 解决方案 > TCGABiolinks:GDCprepare 永远不会终止和崩溃

问题描述

我最近开始使用 TCGAbiolinks 来处理 TCGA 数据库中的一些基因表达。我需要做的就是将数据下载到 R 文件中,网上有很多例子。但是,每次我尝试示例代码时,它都会使我的 R 工作区崩溃,有时甚至完全崩溃我的 PC。

这是我正在使用的代码:

library(TCGAbiolinks)

queryLUAD <- GDCquery(project = "TCGA-LUAD",
                      data.category = "Transcriptome Profiling",
                      data.type = "Gene Expression Quantification",
                      sample.type = "Primary Tumor",
                      legacy = FALSE,
                      workflow.type = "HTSeq - FPKM-UQ"
                      )

GGDCdownload(queryLUAD)

LUADRNAseq <- GDCprepare(queryLUAD,
                         save = TRUE,
                         save.filename = "LUAD.R")

正如您所看到的,它非常简单并且(据我所知,与此示例相同

当我运行此代码时,它会完全下载(我已经检查了包含文件的文件夹)。然后,我运行 GDCprepare。进度条开始并达到 100%。然后,该命令最终不会终止,无论是 RStudio 还是我的机器崩溃。

这是终端输出:

> GDCdownload(queryLUAD)
Downloading data for project TCGA-LUAD
Of the 533 files for download 533 already exist.
All samples have been already downloaded
> LUADRNAseq <- GDCprepare(queryLUAD,
+                          save = TRUE,
+                          save.filename = "LUAD.R")
|==============================================================================================|100%                      Completed after 13 s 

尽管它说已完成,但它从未完成。为了解决这个问题,我尝试重新安装 TCGAbiolinks,将 R 更新到最新版本,甚至在完全不同的机器上运行它(Mac 而不是 Windows)。我尝试了其他数据集(“LUSC”)并得到了完全相同的行为。什么都没有解决这个问题,我在网上的任何地方都没有发现这个问题。

我真诚地感谢有关为什么会发生这种情况以及如何解决它的任何和所有建议。

标签: rcrashbioconductor

解决方案


遇到完全相同的问题。尝试了各种方法,并注意到当数据集的样本少于 100 个或使用“summarizedExperiment = FALSE”运行的数据集少于 300 个样本时它不会崩溃。


推荐阅读