最近由于要处理一批vcf文件,可能会对vcf文件操作的多一点,特此记录下关于vcftools软件操作vcf文件的一些命令及技巧
从样本中批量提取目标样本
vcftools --gzvcf input.vcf.gz --keep sample.txt --recode --stdout | gzip -c > output.vcf.gz
注:
–vcf 输入的是未压缩的vcf文件
–gzvcf 输入的是压缩后的vcf文件
在群体遗传学中,遗传多样性参数是衡量群体遗传多样性的重要指标,比如Fst、π、Tajima’s D等。
1、Fst计算
Fst是衡量群体间分化程度的重要参数,Fst越大,表明群体分化程度越高,受选择程度越高。基于Fst可以进行选择性消除分析。
计算两个群体间fst值,pop1.txt和pop2.txt是包含了各群体的样品名
vcftools --gvcf input.vcf.gz --weir-fst-pop pop1.txt --weir-fst-pop pop1.txt --fst-window-size 200000 --fst-window-step 100000 --out output.window.fst