python - 拷贝数文件格式问题
问题描述
我对.csv
来自复制编号数据的文件有疑问。原来的样子是这样的:
genes Log2
PIK3CA,TET2 -0.35
MLH2,NRAS 0.54
而且,我需要的是:
genes Log2
PIK3CA -0.35
TET2 -0.35
MLH2 0.54
NRAS 0.54
到目前为止,我已经尝试了很多事情,但都没有成功。该文件是使用来自胃癌样本的 CNVkit 创建的。文件更大,基因列表更长,但这基本上是我需要做的,以便分析我们的 cnv 数据。
我试过这个:
awk -F , -v OFS='\t' 'NR == 1 || $0 > 0 {print $4}' copynumber.csv | less
这是我得到的最接近的。
我使用 Linux,Ubuntu 16.04。如果您能用 R 或 Python 脚本帮助我,我将不胜感激,但是,到目前为止,任何解决方案都会很好。
解决方案
如果您使用 R ,我们可以separate_rows
从包中使用。tidyr
library(tidyr)
dat2 <- dat %>% separate_rows(genes)
dat2
# genes Log2
# 1 PIK3CA -0.35
# 2 TET2 -0.35
# 3 MLH2 0.54
# 4 NRAS 0.54
数据
dat <- read.table(text = "genes Log2
PIK3CA,TET2 -0.35
MLH2,NRAS 0.54",
header = TRUE, stringsAsFactors = FALSE)
推荐阅读
- elasticsearch - 使用标记器在弹性搜索中对文档进行分组
- xcode - 使用 bash 脚本展平导入语句
- c++ - 根据模板类型有条件地删除变量
- ubuntu - 如何从 ubuntu 服务器中删除 Jenkins
- android - 如何在保留 NavigationDrawer 的同时更改片段的同时更改 AppBarLayout?
- html - 网格瓷砖设计
- python - 股票数据下载python无库
- c# - 如何填充在 caruselpage Xamarin.Forms 中定义的集合视图
- python - python中日期的正则表达式?
- python - 'rq command not found' 启动 worker 时