首页 > 解决方案 > 使用 SnpSift,只有 0.52% 的 VCF 被 dbsnp 数据库注释

问题描述

我使用以下命令从 cram 生成了一个坐标排序的 vcf 文件:

samtools 排序 -@ 10 -o /output/sorted.cram

samtools 索引 -@ 10 /output/sorted.cram

bcftools mpileup -f reference.fa -r chrz:zzzz-zzzzx -a INFO/AD,FORMAT/DP --threads 10 -O v -o /output/mpileup.vcf /input/sorted.cram

我正在尝试用 snpsift 注释坐标排序的 vcf 文件(参考基因组 Hg38)。我正在使用以下命令:

java -jar SnpSift.jar 注释 -v /dbsnp/file.vcf.gz /input/mpileup.vcf > /output/annotated.vcf

我在这里下载了 dbsnp vcf 文件和标签索引:ftp: //ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/GATK/

但是,只有 0.52% 的 vcf 被注释了……这看起来很奇怪。此外,当我尝试使用 ensemble Web 界面 ( https://useast.ensembl.org/Multi/Tools/VEP?db=core ) 来注释我的 vcf 时,我收到错误“输入无效”。这让我相信我的 vcf 文件有问题?我只是想注释一个基因,只有0.52%的基因被dbsnp注释是正常的吗?提前感谢您的任何帮助!


更新!如果使用 bcftools mpileup | bcftools 调用 --variants-only 然后 ensembl 工具工作。此外,这人为地增加了注释的 SNP 的百分比。

标签: javabioinformaticsbcftoolsvcf-variant-call-format

解决方案


推荐阅读