python - 使用 R/Python/Unix 过滤/清理数据集
问题描述
我想知道是否有人知道我可以使用任何方法(R/Python/Unix bash)的过滤过程/功能。
所以我的数据集看起来像:
Gene Chromosome Counts ...
x
x
x
x
现在,我有一个不同的文本文件,其中包含从上面的数据集中选择的基因。所以我正在寻找一个允许输入文件过滤掉 Gene 列并保持 Chromosome - Counts 列完整的函数。
我不能在 excel 中执行此操作的原因是我的数据集非常庞大,并且每次都会使我的计算机崩溃,并且手动执行此操作非常累。
另外,我不是程序员,这就是为什么我不能为此编写脚本的原因,我过去很累,这是一个巨大的失败。
谢谢,
解决方案
注意:您的问题可能会受益于示例数据集,因为这个简单的响应可能不适用于所有数据。
给定CSV文件genes.txt:
Gene,Chromosome,Etc
a,1,x
b,2,x
c,2,y
命令
awk -F, 'BEGIN {OFS=","} {print $2,$3}' genes.txt | tee genes-edit.txt
将打印
Chromosome,Etc
1,x
2,x
2,y
并将其输出到文件genes-edit.txt
推荐阅读
- python - 在 agg 函数中聚合具有一个属性的多列
- mysql - 用 Mysql 查询比较行
- tsql - 字符串搜索输出转换为行
- c++ - c++ 编译器创建的默认构造函数
- spring-boot - 在 criteriaBuilder 加入不想正常工作
- reactjs - 在 React with Enzyme 中测试异步函数
- cassandra - Cassandra 是否针对 OpenJDK 或任何非 Oracle 免费 JRE 进行了全面测试
- c# - 通过视图模型将数据从视图传递到控制器总是返回 null
- sql - 无法 CodeFirst My DB EF 6.2 2 FK 到一个 PK 关系(MVC APP)
- javascript - 如何在 Javascript 上修改数组对象的值?