一、β-多样性分析介绍
1. β(Beta)Diversity:
是对不同样品/不同组间样品的微生物群落构成进行比较分析。
β多样性分析前的数据“来源”:
1)OTUs的丰度信息表;
2)OTUs之间的系统发生关系,
计算UnweightedUnifrac及Weighted Unifrac距离。
通过多变量统计学方法主成分分析(PCA, Principal Component Analysis),主坐标分析(PCoA,Principal Co-ordinates Analysis),非加权组平均聚类分析(UPGMA,Unweighted Pair-group Method withArithmetic Means)等分析方法,从中发现不同样品(组)间的差异。
2.PCA & PCoA分析
主成分分析(PCA)是多变量统计学中最为人熟知的分析方法,它通过线性变换,将原始的高维数据投影至少量新合成的变量(即主成分),从而简化数据结构,展现样品的自然分布。
主成分分析不考虑原始变量之间可能存在的相互关系,并且是基于欧式距离评价样品之间的相似度。
多维尺度分析与主成分分析类似,但是它可以采用任何距离评价样品之间的相似度。主坐标分析(Principalcoordinates analysis,PCoA)是经典的多维尺度分析方法。
3. UniFrac距离
由于微生物极其多样,不同微生物彼此之间的系统发育关系往往千差万别,仅仅将群落中不同微生物成员视为相互独立的变量显然并不合理。
因此,在比较不同群落样品之间的差异时,需要考虑两个群落成员之间的系统发育关系是否相似。
基于这个思想,计算微生物群落样品间距离的UniFrac距离应运而生,通过比较两个群落各自独有的微生物成员之间系统发育关系的远近,更为客观地反映两个群落样品之间的相似程度
UniFrac距离有:
1)非加权(Unweighted)
仅仅考虑微生物成员在群落中存在与否,而不考虑其丰度高低。
2)加权(Weighted)
兼顾群落成员之间的系统发育关系以及它们在各自群落中的丰度高低。
两种距离算法侧重于不同的群落结构特征:究竟是由于群落成员的截然不同导致样品的差异,还是由于同一组成员在不同样品中丰度梯度的改变导致样品的差异。
由于主坐标分析是以“无监督”的方式降维分解样品距离矩阵,因此,合理运用非加权和加权两种UniFrac距离,可以较全面地揭示微生物群落数据背后隐含的生态学意义(即UniFrac PCoA分析)。
4. 聚类分析
聚类分析:通过等级树的形式展示样品间的差异大小。
※ 与多维尺度分析相同,聚类分析可以采用任何距离评价样品之间的相似度。
常用的聚类分析方法包括:
1)非加权组平均法(Unweightedpair-group method with arithmetic means,UPGMA)
2)单一连接法(Single-linkageclustering)
3)完全连接法(Complete-linkageclustering)
4)……等。