首页 > 解决方案 > 拷贝数文件格式问题

问题描述

我对.csv来自复制编号数据的文件有疑问。原来的样子是这样的:

genes               Log2
PIK3CA,TET2          -0.35
MLH2,NRAS            0.54

而且,我需要的是:

genes                Log2

PIK3CA              -0.35
TET2                -0.35
MLH2                0.54
NRAS                0.54

到目前为止,我已经尝试了很多事情,但都没有成功。该文件是使用来自胃癌样本的 CNVkit 创建的。文件更大,基因列表更长,但这基本上是我需要做的,以便分析我们的 cnv 数据。

我试过这个:

awk -F , -v OFS='\t' 'NR == 1 || $0 > 0 {print $4}' copynumber.csv | less

这是我得到的最接近的。

我使用 Linux,Ubuntu 16.04。如果您能用 R 或 Python 脚本帮助我,我将不胜感激,但是,到目前为止,任何解决方案都会很好。

标签: pythonrformat

解决方案


如果您使用 R ,我们可以separate_rows从包中使用。tidyr

library(tidyr)

dat2 <- dat %>% separate_rows(genes)
dat2
#    genes  Log2
# 1 PIK3CA -0.35
# 2   TET2 -0.35
# 3   MLH2  0.54
# 4   NRAS  0.54

数据

dat <- read.table(text = "genes               Log2
PIK3CA,TET2          -0.35
                  MLH2,NRAS            0.54",
                  header = TRUE, stringsAsFactors = FALSE)

推荐阅读