extract - 是否有工具或脚本可以将分阶段的 VCF 拆分为两个单独的单倍体 VCF,每个单倍体一个?(Linux)
问题描述
我有一个分阶段的 .vcf 文件,该文件由longshot从二倍体人类 DNA 的 MinION 测序运行中生成。我希望能够将文件拆分为两个单倍体文件,一个用于单倍型 1,一个用于单倍型 2。
是否有任何 VCF 工具包开箱即用地提供此功能?
我的文件中的 3 个变体:
##fileformat=VCFv4.2
##source=Longshot v0.4.0
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth of reads passing MAPQ filter">
##INFO=<ID=AC,Number=R,Type=Integer,Description="Number of Observations of Each Allele">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=PS,Number=1,Type=Integer,Description="Phase Set">
##FORMAT=<ID=UG,Number=1,Type=String,Description="Unphased Genotype (pre-haplotype-assembly)">
##FORMAT=<ID=UQ,Number=1,Type=Float,Description="Unphased Genotype Quality (pre-haplotype-assembly)">
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE
chr1 161499264 . G C 500.00 PASS DP=55;AC=27,27 GT:GQ:PS:UG:UQ 0|1:500.00:161499264:0/1:147.24
chr1 161502368 . A G 500.00 PASS DP=43;AC=4,38 GT:GQ:PS:UG:UQ 1/1:342.00:.:1/1:44.91
chr1 161504083 . A C 346.17 PASS DP=39;AC=19,17 GT:GQ:PS:UG:UQ 1|0:346.17:161499264:0/1:147.24
解决方案
要从分阶段的 vcf 文件中提取单倍型,您可以使用samplereplay
from RTGtools生成单倍型 SDF 文件;然后sdf2sam, sdf2fasta, sdf2fastq 得到分阶段单倍型的对应文件。
编辑:我没有注意到你需要一个单倍体 VCF 文件。如果您先将其转换为 sam,然后再转换为 VCF,则上述方法应该可以工作。
推荐阅读
- c - c和汇编makefile
- android - onScrolled 被调用,没有任何用户在 recyclerView 中滚动
- function - 使用millis()函数在Arduino中进行多任务处理
- uml - 如何使用 Enterprise Architect 连接棒棒糖 - 组件图(装配关系)
- ios - 如何在小数点键盘上显示完成按钮?
- python - 在通用视图中使用聚合 django rest
- mysql - ASP.NET Core 如何指定 SQL 查询
- sql - 根据表中的其他行向 SQL 表中添加列
- java - 在 ViewPager 中刷新片段
- sql - SQL 查询“未加入”与“加入”