宏基因组CAGMGSMLGMAG傻

来源：本站原创
时间：2021/1/7 6:53:12

医治白癜风的专家 http://m.39.net/pf/bdfyy/
在之前的Binning文章中（文章链接：《如何打破瓶颈，提升宏基因组研究level》、《宏基因组高分文章里的小技巧》），主要针对Contig进行聚类，旨在得到潜在的单菌基因组信息。除了Contig，宏基因组中还有一类序列信息，即Gene。所以类似的，我们也可以基于基因丰度进行序列聚类，比如Canopy聚类算法、Chameleon算法，得到的集合（Cluster）称为CAG、MLG、MGS等，不同的称呼对应不同的聚类方法或者集合的质量信息（表1）。基因的聚类旨在探究“种层级”的功能特征。表1宏基因组“单菌”常见描述基因聚类的核心思想与Binning类似，来自同一个菌株的基因，在不同样本间的丰度变化高度一致[1]，反过来，则可以基于基因丰度，将变化高度一致的基因聚在一起，形成一个潜在的基因组。如图1，第一行的小人表示样本，颜色表示不同的物种。第二行为测序组装预测的结果，即非冗余基因集。第三行表示每个基因在样本中的丰度分布。按示例，来自一个基因组的基因丰度变化一致。最后一行即为聚类的结果，基于丰度一致性，划分不同的Cluster。但真实的研究中，群落组成更复杂，样本更多，聚类过程远比图示的困难，如何实现呢？图1CAG原理示意图

准备基因集

从上图可以看出，分类是基于基因变化的一致性实现的，所以有足够多的变化信息，才能将不同类别的基因区分开。想获得足够多的变化信息，有两种操作：1）前期实验样本量充足，一般推荐15个以上样本；2）挑选普遍存在的基因，比如有一个样本特有的基因，其他样本的丰度都为0，则无法获得该基因的变化信息，参与分析反而会干扰数据计算。所以需要整理基因集合，一般选取至少在10个样本中都存在的基因。

基因聚类

①Canopy聚类算法丰度变化一致性，就是我们非常熟悉的Pearson相关系数。Canopy聚类[1]就是基于相关程度，进行聚类。但是，宏基因组获得的基因数据量非常大，两两基因都计算一次相关系数，那可能要算到天荒地老了。怎么简化呢，Canopy想到了一个办法，如图1：1）随机挑选某个基因作为种子序列（Seed）；2）基于基因丰度，计算种子基因与其他基因的Pearson相关系数，将相关系数0.9的其他基因加入到此种子基因的分组中，形成一个所有基因表达量高度接近的Cluster；3）继续挑选其他未成组的基因作为种子基因，依次按照1和2步骤分组，直到所有基因都被分到Cluster中；4）以每个Cluster中所有基因的丰度中位数，计算Cluster之间的Pearson相关系数，将系数0.97以上的Cluster进行合并；5）把基因数目大于2的Cluster归为CAG；6）将基因数目大于的CAG归类为MGS（MetagenomicSpecies）。所以，MGS其实是高质量的CAG，分析算法是一样的，是对基因丰度信息的充分挖掘，属于无参考的聚类。②Chameleon算法也称为变色龙算法，一种两阶段层次聚类算法[2]。如图2：1）Construct，将输入基因集作为一个初始的Sub-cluster；2）Partition，然后使用动态模型，拆分成小的Cluster，基于Interconnectivity（互连性）和Closeness（近似性），计算Cluster间的similarity（相似度），按Cluster间相似度大于0.4，组合形成Semi-clusters；3）Merge，重新计算新的Semi-clusters间的Similarity，对Semi-clusters进行注释，若相似度大于0.2且注释为同一个物种，则合并为一个MLG。所以MLG也是对基因聚类结果的称呼，但算法与CAG不同。该算法综合了物种注释和基因丰度两部分信息，算法依赖数据库的物种信息，可以理解为半参考的聚类。图2变色龙算法

基因聚类应用

聚类分析完成后，即可获得每个CAG等包含的基因组成信息。怎么在文章中应用CAG的结果呢？可以把每个CAG当一个物种，进行分析。第一步，我们需要通过基因注释和统计，知道每个CAG代表的物种、功能信息。如图3，研究挑选了MGS进行物种注释，MGS基本信息的统计[3]，包含基因数量、物种注释，注释到的物种层级，数据库有注释的基因占比等。图3CAG基本信息统计除了注释信息，还可以挑选关键的CAG进行差异分析。为鉴定并验证微生物与结直肠癌、炎症性肠病的关联，采集3组炎症性肠病样本、4组结直肠癌样本[4]。如图4，标题表示CAG编号，横轴为不同时期的样本，纵轴是CAG丰度，橙色是炎症性肠病组，蓝色健康组，通过盒型图直观展示目标CAG在组间的丰度差异。图4CAG组间差异分析如图5，纵轴为CAG编号和属水平物种注释，横轴第一列，各CAG与结直肠癌的相关性；第二列，CAG中基因所属的门水平注释；第三列，CAG基因在KEGG数据库的分类注释。展示与结直肠癌密切关联CAG的物种、功能特征。图5CAG关联分析

Tips：基迪奥有丰富专业的微生物研究经验，在扩增子、宏基因组、多组学关联等各类项目，都有优质文章持续产出。有计划开展宏基因组等测序研究的小伙伴，欢迎咨询当地销售。

参考文献[1]NielsenHB,AlmeidaM,JunckerAS,etal.Identificationandassemblyofgenomesandgeneticelementsin

本文编辑：佚名
转载请注明出地址 http://www.mgadw.com/Mgcarxn/6249.html

上一篇文章：颜值够高曝全新名爵6MG6申报图

下一篇文章：没有了

最新文章

热点文章

没有任何图片文章
没有热点文章

推荐文章

没有任何图片文章
没有推荐文章