vcftools的使用总结

最近由于要处理一批vcf文件,可能会对vcf文件操作的多一点,特此记录下关于vcftools软件操作vcf文件的一些命令及技巧

从样本中批量提取目标样本

vcftools --gzvcf input.vcf.gz --keep sample.txt --recode --stdout | gzip -c > output.vcf.gz

注:

–vcf 输入的是未压缩的vcf文件

–gzvcf 输入的是压缩后的vcf文件

在群体遗传学中,遗传多样性参数是衡量群体遗传多样性的重要指标,比如Fst、π、Tajima’s D等。

1、Fst计算

Fst是衡量群体间分化程度的重要参数,Fst越大,表明群体分化程度越高,受选择程度越高。基于Fst可以进行选择性消除分析。

计算两个群体间fst值,pop1.txt和pop2.txt是包含了各群体的样品名

vcftools --gvcf input.vcf.gz --weir-fst-pop pop1.txt --weir-fst-pop pop1.txt --fst-window-size 200000 --fst-window-step 100000 --out output.window.fst

参考资料:

美吉生物https://mp.weixin.qq.com/s/TsaAB_QCC96QuPn1QXKTOA
生信百科https://mp.weixin.qq.com/s/Ar4I33z9UhMSP-Bi86XJyw