基本原理
原始群体中,遗传多样性是十分高的,整个序列的核酸diversity都高。而在受到选择之后,diversity会发生波动。核酸多样性下降 可能就是由于under selection导致的。
在演化/驯化过程中,如果某一基因X占优势,即X的基因型占据主导地位,则基因X所在区域的杂合率/多样性会显著下降。本质就是 比较基因组不同区域多样性(杂合率)的变化
- 群体遗传关心的问题:
- 遗传结构(phylogeny+structure)
- 基因组上受选择区域:群体水平基因组不同位置的区域遗传多样性变化的规律(例如:Pi、Tajima’s D, Fst)
- 变异类型:
- 中性突变(同义、相同类型的氨基酸、不影响环境适应性):平衡选择,这种基因型频率是大致恒定的
- 有利突变(正选择):选择扫荡(Selective sweep),与有利突变的中性突变的频率会显著提升
- 有害突变(负选择):背景选择(negative selection/background selection/ purifying selection) 是潜在的噪音
负选择会对正选择有一定的干扰作用,都能产生大量的低频突变,但是正选择会产生相对较多的高频突变。
选择压力的分析方法
单群体受选择区域的检验
- 有效群体大小、每个位点突变速率
- sitaW:基于全部序列内分离位点的个数(差异位点/核酸碱基的数量);对低频的突变更加敏感。
- pi值:计算两两序列的差异度,然后求均值。与计算的群体有关:
- 群体总体的pi:计算出的pi值即代表这个小群体的pi值,核酸多样性水平的高低。
- 基因组序列层面做检测,检测基因组不同区域的选择压力水平,一般采取滑动窗口的方式,例如以100kb的窗口10kb步移扫描pi值均值大小,从而计算序列层面不同区域的pi值变化。将pi值最极端区域(min 1%/5%)区域就作为受选择的区域
- Tajima’s D。如果某个区域的Tajima’s D值下降了,则代表这个区域可能会受到选择(但是无法区分出正负选择 (高频突变会导致Pi值上升,而低频突变会导致W值上升)
- H检验(Fay & Wu):更关注正选择的高频突变。
两个亚群体之间的比较
多样性水平在亚群间比较,一般包括线性相关分析、亚群体间的差异比较两类。动植物重测序多是后者。Fst/pi ratio基于pi值。
- 群体分化程度Fst (Fixation index): 比较两个亚群体间的Pi值和亚群体内的Pi值的差异。
- 由PI值计算演变来(序列两两差异取均值)
- 两个亚群体在某一段seq区域的差异度。0是无差异,数值越大,则说明两个亚群体之间已经发生了明显的分化(亚群内个体相似,亚群间差异大)
1 | Fst=(\pi(between) - \pi(within))/ \pi(between) |
- 多样性变化倍数Pi ratio:某区间在亚群间的多样性差异的倍数,简单粗暴,就关注多样性值的高低变化。
- 例如野生群体A/栽培群体B;野生群体A的多样性较高,而栽培群体B的多样性较低,所以多样性降低最显著的基因组区域,就与驯化改良基因相关
- 其它比较值:ROD值、XP-CLR值等。而多个品种间的比较分化差异的di值
一般文章中都是将单群体的(PI, TajamaD)和多群体间比较的(Fst)值结合起来使用:单群体内多样性下降,两个群体间多样性分化程度上升,从而可能是受选择基因。(多是以滑动窗口的方法50k/100k)
所需材料和数据
- 选择多品种,保证亚群体中更多的遗传多样性能被代表,在品种内少量个体即可(8个个体+以上基本可以)。
- 选择WGS,而非GBS。GBS可能~10K出现次标记,而在自然群体中,LD衰减快,如到0.1仅10K,导致丢失一些区域的信息。
- 测序深度:后续主流是10X。8X的深度最优性价比
参考学习资料:选择压力分析 https://www.omicshare.com/class/home/index/series?id=7