Phylogenomic_Tutorial || Divergence Time Estimation

[TOC]

Phylogenomic_Tutorial || Divergence Time Estimation

Preparation & Overview

贝叶斯系统分化时间推断、Relaxed-clock models 和化石抽样过程的统计学模型的发展使得系统分化时间的推断更加的准确。在此篇教程中将利用BEAST2中的两个包CA package(CladeAge)和FBD model(fossilized birth-death model)进行基于化石证据的分化时间推断

Datasets & Softwares

  • 教程将利用Near et al 2013文章的10个核基因数据去推断Spiny-rayed fish(Acanthomorpahta)的分化时间,数据包含有520species。我们将利用其中的部分数据(24 species 包括 cichlid lineages和少部分祖先物种)去推断其中的Cichlid fishes的分化时间。
  • Softwares: BEAST2, Tracer, Figtree.

利用CladeAge(CA)进行分化时间推断

CladeAge和传统的node-dating方法一样都是利用每个支系先验的密度分布(Prior density),并且这些先验分布的最小年龄是基于化石证据。不同的是,CladeAge与传统的node-dating不同点就在于CA在计算age-prior densities时是基于一个化石抽样分布的模型,对于node-dating是更基于log or gamma distributions的人为推断;其次,在CA中对于每个clade的量化模型的选择应是基于 每个支都有化石证据、形态学认证、姊妹支系同样有化石证据。总之就是CA法相较于传统的node-dating法更好。

  • 下载原始数据wget -O Near_et_al.nex https://datadryad.org/stash/downloads/file_stream/86454 文件为nex格式文件,原始数据是包括有608个species。
  • 选择其中24个species
1
2
3
4
5
6
7
8
#ntax修改为24个accs
head -n 7 Near_et_al.nex | sed 's/ntax=608/ntax=24/g'> Near_et_al_red.nex

# 根据文件筛选-f; 以及-e "\[" 筛选;按照nex格式修改;实际上10个基因是每个基因前都有个空行
grep -f Near_et_al_ids.txt -e "\[" Near_et_al.nex | sed -e $'s/\[/\\\n\[/g' >> Near_et_al_red.nex

#末尾修改paup修改为assumptions
tail -n 35 Near_et_al.nex | sed 's/paup/assumptions/g' >> Near_et_al_red.nex
  • 在BEAUti中的manage packge中安装CA包;重新打开BEAUti会看到Clade Ages的标签。
  • Import Alignment导入NEX文件,BEAUti会自动识别10个基因的30个的codon的partitions。如Bayesian Inference教程相同选择link trees和link clock models。
  • 在Site model的选择位点核酸替换模型中,根据前面的bModelTest包,选择BEAST ModelTest, namedExtended,mutation rate选择estimate。对所有的30个codon选择相同的site model
  • 在Clock rate选择Relaxed Clock Log Normal,并进行Estimate
  • 在Priors选择Birth-Death Model
  • 在Clade Ages即CA包下(较为重点的操作),根据已有的化石证据来对每一个支定义化石经历年限。,
    • 需要计算estimate the net-diversification rate (speciation minus extinction)和 turnover (extinction divided by speciation)的速率(都是要去查文献确定的值)
    • 对添加的每一个支系输入化石记录的时间。随后可以在右边计算概率密度分布
    • Where I can find fossil records for those speices???
  • 在MCMC选项下多少次重复次数通常100million,输出文件信息;最后save as保存文件为xml格式。
  • 在BEAST程序中载入xml文件,计算。通常会报错,因为Starting Tree的问题。
  • 我们需要预先输入一个starting tree,每一支的预设分化时间要大于化石的最大时间。可以在View下显示 starting panel后输入预设的newick树。而后开始计算。

计算时间100million迭代大约需要~15小时。

利用FBD模型进行分化时间推断

FBD approach was not explicitly developed for a dataset of diverse lineages that includes fossil information only for the oldest representatives of these lineages.
FBD approach does not require specification of estimates for the diversification, turnover, and fossil-sampling rates, but it is able to estimate these parameters if the dataset conforms to model expectations.
同样需要各个数据细节的设置;关键还是需要找到各个物种/支系的最近化石证据。并依此设置各个相关参数。较为复杂,日后需要直接用到此方法时再更为详细学习相关技术/模型细节。

对分化时间推断的解释interpretation

需要利用到Tracer对BEAST跑出的log文件进行细节方面的探讨解释。其中比较重要的数据包括
ESS values。根据TreeHeight参数可以判断出分化时间的差别。95%HPD interval即是可以判断分化时间的95%的区间范围。

在Figtree中的node label以及node bars即可设置分化时间的具体范围。

References

A tutorial on phylogenetic divergence-time estimation with with fossils

文章目录
  1. 1. Phylogenomic_Tutorial || Divergence Time Estimation
    1. 1.1. Preparation & Overview
      1. 1.1.1. Datasets & Softwares
    2. 1.2. 利用CladeAge(CA)进行分化时间推断
    3. 1.3. 利用FBD模型进行分化时间推断
    4. 1.4. 对分化时间推断的解释interpretation
    5. 1.5. References
|