群体遗传π值和XP-CLR计算

很久没有写过博客了,看见二师兄在群里征集课题组网站的资料我也方然想起来自己曾经也花了很多时间建立的一个博客,既然是心血,那就还是要继续督促自己写下去。

今天所记和分享的的是关于群体基因组学方面的一些知识,也是最近在忙着学习的东西,顺便做一下记录,如果能帮助后来者,那就是有意义的事,具体的定义不再赘述,主要记录一些过程,望理解。

物种的驯化和改良过程,特别是农作物和家养动物(不知是否表述专业)伴随着人类的出现一直延续至今,如何在基因组层面定义驯化的现象,许多的研究采用了多种不同的方法来解释,群体间分化指数Fst,核苷酸多样性π,以及跨种群复合似然比XP-CLR等。接下来就具体讲一下XP-CLR值和π怎么去算,以及过程中我踩到的坑。

π值

这个值在文章中用的也很多了,大概瞄了一下,计算起来也非常简单,我的理解含义是在给定基因组区间内分别计算两个群体的π值,越大说明核苷酸多样性越高,最后求得群体间比值,以一定的阈值去筛选,确定候选区域。

Vcftools可以轻松完成这个工作

vcftools --vcf test.vcf --window-pi 500000 --out pi

参数非常简单,相信不必赘述。在我写这篇博客的时候,我的结果还没出来,对于结果文件的解读后期补上。
在过程中我消耗了一点时间的地方其实是在准备Vcf文件的过程,之前用GATK做SNP calling是用的GATK3.8,然而目前GATK更新到4,与以前的版本相比用法做了很大改变,这一点需要注意。

XP-CLR

其实这个值目前在很多文章中与π值方法一起用降低假阳性。
usage:

xpclr [-h] --out OUT [--format FORMAT] [--input INPUT]
[--gdistkey GDISTKEY] [--samplesA SAMPLESA] [--samplesB SAMPLESB]
[--rrate RRATE] [--map MAP] [--popA POPA] [--popB POPB] --chr
CHROM [--ld LDCUTOFF] [--phased] [--verbose VERBOSE]
[--maxsnps MAXSNPS] [--minsnps MINSNPS] [--size SIZE]
[--start START] [--stop STOP] [--step STEP]

主要用到的参数:
–out 输出文件
–format 输入文件的格式,可以使vcf 和hdf5和 txt格式,具体要求参考:https://github.com/hardingnj/xpclr
–samplesA 群体A中的材料名称
–samplesB 群体B中的材料名称
–size 计算窗口
–step 步移距离

usage: xpclr [-h] –out OUT [–format FORMAT] [–input INPUT]
[–gdistkey GDISTKEY] [–samplesA SAMPLESA] [–samplesB SAMPLESB]
[–rrate RRATE] [–map MAP] [–popA POPA] [–popB POPB] –chr
CHROM [–ld LDCUTOFF] [–phased] [–verbose VERBOSE]
[–maxsnps MAXSNPS] [–minsnps MINSNPS] [–size SIZE]
[–start START] [–stop STOP] [–step STEP]

用法非常简单,需要注意的是如果对多个样品的vcf文件进行分析,vcf应当是一个合并后的文件,如何合并参考vcftools。

Share (本文总阅读量 次)