准备基因集
从上图可以看出,分类是基于基因变化的一致性实现的,所以有足够多的变化信息,才能将不同类别的基因区分开。想获得足够多的变化信息,有两种操作:1)前期实验样本量充足,一般推荐15个以上样本;2)挑选普遍存在的基因,比如有一个样本特有的基因,其他样本的丰度都为0,则无法获得该基因的变化信息,参与分析反而会干扰数据计算。所以需要整理基因集合,一般选取至少在10个样本中都存在的基因。基因聚类
①Canopy聚类算法丰度变化一致性,就是我们非常熟悉的Pearson相关系数。Canopy聚类[1]就是基于相关程度,进行聚类。但是,宏基因组获得的基因数据量非常大,两两基因都计算一次相关系数,那可能要算到天荒地老了。怎么简化呢,Canopy想到了一个办法,如图1:1)随机挑选某个基因作为种子序列(Seed);2)基于基因丰度,计算种子基因与其他基因的Pearson相关系数,将相关系数0.9的其他基因加入到此种子基因的分组中,形成一个所有基因表达量高度接近的Cluster;3)继续挑选其他未成组的基因作为种子基因,依次按照1和2步骤分组,直到所有基因都被分到Cluster中;4)以每个Cluster中所有基因的丰度中位数,计算Cluster之间的Pearson相关系数,将系数0.97以上的Cluster进行合并;5)把基因数目大于2的Cluster归为CAG;6)将基因数目大于的CAG归类为MGS(MetagenomicSpecies)。所以,MGS其实是高质量的CAG,分析算法是一样的,是对基因丰度信息的充分挖掘,属于无参考的聚类。②Chameleon算法也称为变色龙算法,一种两阶段层次聚类算法[2]。如图2:1)Construct,将输入基因集作为一个初始的Sub-cluster;2)Partition,然后使用动态模型,拆分成小的Cluster,基于Interconnectivity(互连性)和Closeness(近似性),计算Cluster间的similarity(相似度),按Cluster间相似度大于0.4,组合形成Semi-clusters;3)Merge,重新计算新的Semi-clusters间的Similarity,对Semi-clusters进行注释,若相似度大于0.2且注释为同一个物种,则合并为一个MLG。所以MLG也是对基因聚类结果的称呼,但算法与CAG不同。该算法综合了物种注释和基因丰度两部分信息,算法依赖数据库的物种信息,可以理解为半参考的聚类。图2变色龙算法基因聚类应用
聚类分析完成后,即可获得每个CAG等包含的基因组成信息。怎么在文章中应用CAG的结果呢?可以把每个CAG当一个物种,进行分析。第一步,我们需要通过基因注释和统计,知道每个CAG代表的物种、功能信息。如图3,研究挑选了MGS进行物种注释,MGS基本信息的统计[3],包含基因数量、物种注释,注释到的物种层级,数据库有注释的基因占比等。图3CAG基本信息统计除了注释信息,还可以挑选关键的CAG进行差异分析。为鉴定并验证微生物与结直肠癌、炎症性肠病的关联,采集3组炎症性肠病样本、4组结直肠癌样本[4]。如图4,标题表示CAG编号,横轴为不同时期的样本,纵轴是CAG丰度,橙色是炎症性肠病组,蓝色健康组,通过盒型图直观展示目标CAG在组间的丰度差异。图4CAG组间差异分析如图5,纵轴为CAG编号和属水平物种注释,横轴第一列,各CAG与结直肠癌的相关性;第二列,CAG中基因所属的门水平注释;第三列,CAG基因在KEGG数据库的分类注释。展示与结直肠癌密切关联CAG的物种、功能特征。图5CAG关联分析Tips:基迪奥有丰富专业的微生物研究经验,在扩增子、宏基因组、多组学关联等各类项目,都有优质文章持续产出。有计划开展宏基因组等测序研究的小伙伴,欢迎咨询当地销售。
参考文献[1]NielsenHB,AlmeidaM,JunckerAS,etal.Identificationandassemblyofgenomesandgeneticelementsin