首页 > 解决方案 > 使用 R/Python/Unix 过滤/清理数据集

问题描述

我想知道是否有人知道我可以使用任何方法(R/Python/Unix bash)的过滤过程/功能。

所以我的数据集看起来像:

Gene  Chromosome Counts ...
x
x
x
x

现在,我有一个不同的文本文件,其中包含从上面的数据集中选择的基因。所以我正在寻找一个允许输入文件过滤掉 Gene 列并保持 Chromosome - Counts 列完整的函数。

我不能在 excel 中执行此操作的原因是我的数据集非常庞大,并且每次都会使我的计算机崩溃,并且手动执行此操作非常累。

另外,我不是程序员,这就是为什么我不能为此编写脚本的原因,我过去很累,这是一个巨大的失败。

谢谢,

标签: pythonrfiltering

解决方案


注意:您的问题可能会受益于示例数据集,因为这个简单的响应可能不适用于所有数据。

给定CSV文件genes.txt:

Gene,Chromosome,Etc
a,1,x
b,2,x
c,2,y

命令
awk -F, 'BEGIN {OFS=","} {print $2,$3}' genes.txt | tee genes-edit.txt

将打印

Chromosome,Etc
1,x
2,x
2,y

并将其输出到文件genes-edit.txt


推荐阅读