论文部分内容阅读
HDV核酶和锤头型(hammerhead)核酶在植物中已经有报道存在,在此课题中,我们在自己建立的74个植物物种的基因组数据库中,尝试用RNA二级结构预测软件Infernal在未报道过的植物中发现核酶。除了核酶,我们也用不同的生物信息学流水线(pipeline)分别在人类基因组和裸子植物基因组中发现了新的结构性ncRNA。流水线的主要思路一致:先下载物种的基因组建立数据库,然后将基因组的非编码区提取出来,并且我们会去掉上传到Rfam数据库的已知的ncRNA。同时由于不管在动物还是植物基因组中,重复序列的存在比例都相当高,为了避免重复序列的影响我们会通过不同的方法去除重复序列。提取出新的非编码区序列以后我们用BLAST进行同源序列比对,然后用CMfinder预测二级结构。为了增加预测的二级结构的可靠度,我们会筛选出共变异较多、保守性较好的二级结构,再用Infernal在更大的基因组数据库里找到更多符合结构特点的序列,进一步改善二级结构。通过上述方法,我们在新的植物基因组中发现了有活性的HDV核酶和III型hammerhead核酶的存在,分别预测到了123和319条核酶序列,在Selaginella moellendorffii基因组中找到了更多的I型hammerhead核酶的存在(78条),从而揭示了核酶分布的广泛性;第二,我们用优化过的生物信息学流水线在裸子植物中发现了256个新的结构性ncRNA及其关连的基因信息,其中motif 22895在银杏基因组的的RT-PCR结果表示内含子有表达;最后,在人类基因组中发现了有表达的新的结构性ncRNA,存在于MAP2K5基因和LUC-7基因中,除此之外在TEAD1基因中预测了一个有表达的极端保守元件(ultraconserved element,UCE)。这些研究为发现具有生物学功能的结构性ncRNA奠定了基础。