首页 > 解决方案 > 是否有工具或脚本可以将分阶段的 VCF 拆分为两个单独的单倍体 VCF,每个单倍体一个?(Linux)

问题描述

我有一个分阶段的 .vcf 文件,该文件由longshot从二倍体人类 DNA 的 MinION 测序运行中生成。我希望能够将文件拆分为两个单倍体文件,一个用于单倍型 1,一个用于单倍型 2。

是否有任何 VCF 工具包开箱即用地提供此功能?

我的文件中的 3 个变体:

##fileformat=VCFv4.2
##source=Longshot v0.4.0
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth of reads passing MAPQ filter">
##INFO=<ID=AC,Number=R,Type=Integer,Description="Number of Observations of Each Allele">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Float,Description="Genotype Quality">
##FORMAT=<ID=PS,Number=1,Type=Integer,Description="Phase Set">
##FORMAT=<ID=UG,Number=1,Type=String,Description="Unphased Genotype (pre-haplotype-assembly)">
##FORMAT=<ID=UQ,Number=1,Type=Float,Description="Unphased Genotype Quality (pre-haplotype-assembly)">
CHROM   POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  SAMPLE
chr1    161499264   .   G   C   500.00  PASS    DP=55;AC=27,27  GT:GQ:PS:UG:UQ  0|1:500.00:161499264:0/1:147.24
chr1    161502368   .   A   G   500.00  PASS    DP=43;AC=4,38   GT:GQ:PS:UG:UQ  1/1:342.00:.:1/1:44.91
chr1    161504083   .   A   C   346.17  PASS    DP=39;AC=19,17  GT:GQ:PS:UG:UQ  1|0:346.17:161499264:0/1:147.24

标签: extractvcf-vcardphase

解决方案


要从分阶段的 vcf 文件中提取单倍型,您可以使用samplereplayfrom RTGtools生成单倍型 SDF 文件;然后sdf2sam, sdf2fasta, sdf2fastq 得到分阶段单倍型的对应文件。

编辑:我没有注意到你需要一个单倍体 VCF 文件。如果您先将其转换为 sam,然后再转换为 VCF,则上述方法应该可以工作。


推荐阅读