全基因组分析 || 选择压力分析_基础知识

基本原理

基本原理
原始群体中,遗传多样性是十分高的,整个序列的核酸diversity都高。而在受到选择之后,diversity会发生波动。核酸多样性下降 可能就是由于under selection导致的。

在演化/驯化过程中,如果某一基因X占优势,即X的基因型占据主导地位,则基因X所在区域的杂合率/多样性会显著下降。本质就是 比较基因组不同区域多样性(杂合率)的变化

  • 群体遗传关心的问题:
    • 遗传结构(phylogeny+structure)
    • 基因组上受选择区域:群体水平基因组不同位置的区域遗传多样性变化的规律(例如:Pi、Tajima’s D, Fst)
  • 变异类型:
    • 中性突变(同义、相同类型的氨基酸、不影响环境适应性):平衡选择,这种基因型频率是大致恒定的
    • 有利突变(正选择):选择扫荡(Selective sweep),与有利突变的中性突变的频率会显著提升
      selective sweeps
    • 有害突变(负选择):背景选择(negative selection/background selection/ purifying selection) 是潜在的噪音

负选择会对正选择有一定的干扰作用,都能产生大量的低频突变,但是正选择会产生相对较多的高频突变。


选择压力的分析方法

单群体受选择区域的检验

sita计算

  • 有效群体大小、每个位点突变速率
  • sitaW:基于全部序列内分离位点的个数(差异位点/核酸碱基的数量);对低频的突变更加敏感。
  • pi值:计算两两序列的差异度,然后求均值。与计算的群体有关:
    • 群体总体的pi:计算出的pi值即代表这个小群体的pi值,核酸多样性水平的高低。
    • 基因组序列层面做检测,检测基因组不同区域的选择压力水平,一般采取滑动窗口的方式,例如以100kb的窗口10kb步移扫描pi值均值大小,从而计算序列层面不同区域的pi值变化。将pi值最极端区域(min 1%/5%)区域就作为受选择的区域
  • Tajima’s D。如果某个区域的Tajima’s D值下降了,则代表这个区域可能会受到选择(但是无法区分出正负选择 (高频突变会导致Pi值上升,而低频突变会导致W值上升)
    Tajima's D
  • H检验(Fay & Wu):更关注正选择的高频突变。

两个亚群体之间的比较

多样性水平在亚群间比较,一般包括线性相关分析、亚群体间的差异比较两类。动植物重测序多是后者。Fst/pi ratio基于pi值。

  1. 群体分化程度Fst (Fixation index): 比较两个亚群体间的Pi值和亚群体内的Pi值的差异。
    • 由PI值计算演变来(序列两两差异取均值)
    • 两个亚群体在某一段seq区域的差异度。0是无差异,数值越大,则说明两个亚群体之间已经发生了明显的分化(亚群内个体相似,亚群间差异大)
1
Fst=(\pi(between) - \pi(within))/ \pi(between)
  1. 多样性变化倍数Pi ratio:某区间在亚群间的多样性差异的倍数,简单粗暴,就关注多样性值的高低变化。
    • 例如野生群体A/栽培群体B;野生群体A的多样性较高,而栽培群体B的多样性较低,所以多样性降低最显著的基因组区域,就与驯化改良基因相关
  2. 其它比较值:ROD值XP-CLR值等。而多个品种间的比较分化差异的di值

一般文章中都是将单群体的(PI, TajamaD)和多群体间比较的(Fst)值结合起来使用:单群体内多样性下降,两个群体间多样性分化程度上升,从而可能是受选择基因。(多是以滑动窗口的方法50k/100k)


所需材料和数据

  • 选择多品种,保证亚群体中更多的遗传多样性能被代表,在品种内少量个体即可(8个个体+以上基本可以)。
  • 选择WGS,而非GBS。GBS可能~10K出现次标记,而在自然群体中,LD衰减快,如到0.1仅10K,导致丢失一些区域的信息。
  • 测序深度:后续主流是10X。8X的深度最优性价比

参考学习资料:选择压力分析 https://www.omicshare.com/class/home/index/series?id=7

文章目录
  1. 1. 基本原理
  2. 2. 选择压力的分析方法
    1. 2.1. 单群体受选择区域的检验
    2. 2.2. 两个亚群体之间的比较
  3. 3. 所需材料和数据
|