论文部分内容阅读
由于rDNA广泛存在于所有细胞生物的基因组中,并且其中不同片段、位点的进化速率差异较大,使其在从超界到总科间的系统发育推断和进化分析中都能扮演重要的角色,例如细菌、古菌和真核生物三者之间的关系,真核生物的系统发育,后生动物的系统发育等研究。到目前为止,在目级阶元及以下水平的系统发育研究中应用的rDNA片段仍然是以18S rDNA为主;而28S rDNA由于长度较长,扩增过程容易受到发夹结构或者串联重复的单核苷酸或者寡核苷酸的干扰,所以28S rDNA全长序列的应用受到了很大阻碍,相比于18S rDNA的使用案例少很多,尤其是全长序列的使用非常少。28S rDNA的全长约为18S rDNA全长的两倍,并且长度保守区中的位点变异比18S rDNA的更为丰富,因而含有更多的系统发育信息位点。 rDNA由于在进化过程中发生了频繁的插入/缺失事件,使得在高级阶元水平不同类群的 rDNA序列长度之间差异非常大,对其中核苷酸/碱基位置同源的确定带来了很大的困难。但是rRNA的二级结构在进化过程中却高度保守,这很可能是由于rRNA的结构对维持其功能有重要作用。因此我们可以参考二级结构中的碱基配对等信息对rDNA序列的比对进行校正。此外,rRNA二级结构本身的茎环结构,类群特有的插入/缺失,长度变异区段相似的长度及组成以及相同的扩展趋势等都可能成为潜在的衍征信息来源。真核生物rRNA二级结构的早期研究开始于20世纪80年代,随着rDNA序列的不断增加,相应rRNA的二级结构也得到了一定程度的改善。但是其中还存在三个方面的问题,一个是个别长度变异区段的位置不够准确;一个是某些大型的长度变异区段有待细分;还有就是对于特定的类群来说、比如昆虫纲,若使用真核生物的二级结构来矫正一级序列的比对结果的话,会丢失大量的位点信息,因此有必要建立不同阶元级别中针对特定类群的二级结构模型,以改善基于相应rDNA序列的系统发育重建。因此,rRNA的二级结构在以rDNA为分子标记的系统发育研究中有着非常重要的作用。 在rRNA中发现的配对碱基之间的共变化现象表明不同碱基位点的变化不是完全独立的,所以它们提供的系统发育信号存在信息冗余或者说部分重复,而大多数基于rDNA的系统发育研究中都未对碱基对进化因素进行考察。本研究基于昆虫纲18S和28S rDNA的全长序列以及三个核蛋白编码基因的序列探讨了长度变异区段对系统发育重建的影响,其中在rDNA/rRNA数据的分析过程中考察了混合模型(doublet model)对系统发育重建以及分歧时间推断的影响。在不同阶元水平的几项研究中,我们都探讨了rDNA中单核苷酸或寡核苷酸特征作为分子衍征或分子祖征的价值。 第一,对古菌、细菌和真核生物的507条小亚基rDNA序列和347条大亚基 rDNA序列进行了比较分析,确定了全部长度变异区段分布的具体位置并将长度高变区从rDNA原始序列中剔除,使具有关键功能的碱基位点的位置同源性得以辨认。结果发现,在16S–18S rDNA中有10个位点,在23S–28S rDNA中有16个位点是所有的真核生物和所有的古菌特异性共有的碱基状态。而真核生物和细菌只有一个特异性共享的位点;此外,还有一些位点(16S–18S rDNA中有1个位点,23S–28S rDNA中有6个位点)是所有的真核生物特有的位点。本项研究结果支持真核生物核糖体的古菌起源假说;揭示了在大肠杆菌Escherichia coli的23S rDNA/rRNA中导致抗生素敏感性改变的A2058位点,其在所有古菌和真核生物中的同源位点都是碱基 G。幸运的是,我们还新发现了rDNA中与 A2058位点具有完全相同变异模式的其它4个位点,其中在小亚基rRNA中1个,在大亚基rRNA中3个。这些位点中很可能隐藏着不能由A2058位点进行解释的细菌与(古菌+真核生物)之间的抗生素敏感性差异。 第二,基于对后生动物界全长rDNA序列及相应rRNA二级结构模型对比对结果的校正,重建了各门之间的系统发育关系,并且对所有3,916个碱基位点进行了祖征重建。对于吸口动物门Myzostomida来说,总共发现了36个与更基部分支类群共有的祖征位点;粘体动物门Myxozoa,无体腔动物门Acoela和纽皮动物门Nemertodermatida,分别有74、91、41个祖征位点。通过保留和去掉这些位点的对照分析发现造成吸口动物门的进化地位处于两侧对称动物基干类群的原因,与造成粘体动物门、无体腔动物门等类群处于基干类群地位的原因是相同的,这些类群位于分支基部主要是由与较早的分支类群共有的祖征位点决定的。当把这些占整体1-2%的位点从原始数据集里去掉之后再构建后生动物各门之间的系统发育关系时,只有各组祖征相应的那个门的位置发生了变化。也就是说,对于一个给定的分支来说,其在系统发育树上的位置是由一些关键的位点而不是整个矩阵来决定的,而起作用的这些关键位点占整个矩阵的比例可能低至1%。在本项研究之前的分子系统发育研究中,未见有案例去探讨不同碱基位点对系统发育结果的贡献。 第三,在地球上所有已描述的约200万现存物种中,昆虫纲的种类大约占一半,其个体数量和生态位多样性也非常突出,几乎占据了所有陆生的生态系统,以及淡水、河口、海滨,部分种类甚至可以分布至开阔的洋面。了解昆虫纲各目之间的关系和发生适应辐射与绝灭的时间对于认识昆虫纲的进化历史有着至关重要的作用。昆虫纲共包括29-30个目,在多新翅类中除了网翅总目Dictyoptera的单系性得到了很好地支持外,其它目之间的关系争议较大,尤其是缺翅目的位置。在这一部分,我们分别基于单独的rDNA,rDNA和三个核蛋白编码基因的联合两个矩阵对昆虫纲的系统发育关系进行了重建,并基于联合矩阵推断了昆虫纲深部节点的分歧时间。在多新翅类中襀翅目Plecoptera和革翅目Dermaptera的姊妹群关系,网翅总目Dictyoptera和缺翅目Zoraptera的姊妹群关系,蛩蠊目Grylloblattodea和螳(虫脩)目Mantophasmatodea的姊妹群关系和(虫脩)目Phasmatodea和纺足目Embiodea的姊妹群关系都得到了很好的支持,((Grylloblattodea+Mantophasmatodea)+(Embiodea+Phasmatodea))的单系性也得到了很高后验概率的支持。网翅总目Dictyoptera和缺翅目Zoraptera的姊妹群关系还得到了来自于rRNA二级结构方面证据的支持。在28S rRNA长度变异区D3-4中,网翅总目和缺翅目共享相同的碱基长度和特有的碱基排布类型,而多新翅类中其余的目为另外一种类型。因此网翅总目和缺翅目相似的D3-4区的长度和组成可以作为系统发育重建中潜在的有价值的共有衍征甚至自有衍征。本项研究结果与基于转录组数据的研究结果在完全变态类部分完全一致。在基于联合数据所做的分歧时间研究结果中,整体格局与主要的历史事件相吻合,比如晚志留纪和早泥盆纪时期空气中氧含量的升高,泥盆纪时期维管植物的适应辐射以及泥盆纪和石炭纪时期昆虫基干类群的化石记录等。基于这些结果可以发现泥盆纪时期对六足类动物多样化的发展是一个非常重要的时期,是产生现生昆虫纲主要分支的摇篮。对rRNA配对区而言,忽略二级结构信息并没有对系统发育重建以及分歧时间的推断产生很大的影响。 第四,异翅亚目昆虫是不完全变态昆虫中生物学习性分化最为强烈的类群,分为7个次目90余科,世界已知约4万种;除了臭虫次目Cimicomorpha和蝽次目Pentatomomorpha的姊妹群关系已经得到了广泛的认可以外,另外5个次目之间的关系仍存在很大的争议,尤其是异翅亚目的基部分支问题。虽然以前的很多研究都是以 rDNA为分子标记,但是所用rDNA的长度,比对的方法和是否与线粒体基因联合使用都会导致不同的系统发育推断结果。尽管在GenBank中有很多异翅亚目昆虫的18S rDNA的序列,但是只有6条28S rDNA的全长序列,并且大多属于蝽次目。此外,到目前为止,数据库里还没有鞭蝽次目的线粒体基因组。本研究新获得了75条全长18S rDNA和28S rDNA序列,使类群选取覆盖到了所有7个次目的所有总科。并基于全长rDNA序列和线粒体基因组分别使用贝叶斯法(Bayesian inference,BI)、最大似然法(maximum likelihood,ML)和最大简约法(maximum parsimony,MP)重建了蝽类昆虫七个次目间的系统发育关系。结果支持奇蝽次目Enicocephalomorpha与鞭蝽次目Dipsocoromorpha形成姊妹群位于异翅亚目的基部分支。其余五个次目的关系为(Gerromorpha+(Nepomorpha+(Leptopodomorpha+(Cimicomorpha+Pentatomomorpha))))。