论文部分内容阅读
植物基因组学的发展产生了一大批有价值的数据,EST(expressed sequences tag)是其中的重要组成部分。利用生物信息学的原理和方法发掘这些海量数据中蕴藏的信息,已成为当前基因组学研究的一个重要组成部分。本研究主要进行以下两方面的研究。 针对大规模分析主要作物EST的需要构建了多功能自动化的分析系统。同时为了方便本实验室相关研究,本系统还增加了生物信息服务功能。因此,本研究所开发的主要作物EST分析系统分为数据分析和生物信息服务两部分,数据分析部分是整个系统的核心。它包括EST-SSR(simple sequeilce repeat,SSR)发掘系统、电子克隆系统、本地化blast(blast basic local alignment search tool)分析系统、EST序列拼接系统和cSNP(single nucleotide polymorphism,SNP)发掘系统共五个子分析系统。这五个子系统是利用新开发的数据挖掘软件并有机结合已有的软件构建的。本地化blast分析系统是在将NCBI的blast系统本地化基础上加入了新的数据库和新开发的blast结果处理程序如同源性分析程序和自动注释程序。EST序列拼接系统是用目前常用的序列组装程序Cap3和Phrap根据EST特点开发的。cSNP发掘系统包括两个子系统:一个是处理大量EST,从中标出可能的SNP位点;另一个是逐条处理提交的EST,从EST数据库中找到与其同源的序列然后鉴别候选SNP。EST-SSR发掘系统的核心程序SSRFinder是自主开发的,它不但可从大量EST中发掘精确SSR(perfect SSR)和复合型SSR(compound SSR),而且还能比较准确地进行统计分析。另外以Phrap和Cap3为核心用自己设计的算法开发了电子克隆程序。生物信息服务部分包括web方式的EST分析系统以及各类序列、结果的管理信息系统,提供在线数据分析和查询服务。 应用自主构建的主要作物EST生物信息分析系统对小麦、水稻、玉米等主要作物的EST进行了分析,主要包括五方面研究:(1)几种主要作物同源性的比较分析,分别用E值(1e-6)和同源性分析程序(整体相似性高达50%)分析了小麦、大麦、水稻、玉米等的同源性,发现小麦与大麦同源性最高,其次是与水稻,第三位是小麦与玉米的。(2)几种主要作物EST-SSR的分析。分析了公共数据库中获取的小麦、水稻、玉米和大豆EST中1—6碱基重复单元SSR的种类和分布频率,表明水稻EST中的EST-SSR比其它的丰富,其分布频率为11.81kp一个SSR;小麦为17.42kp,大豆和玉米的分别为23.80kp和28.32pk。三碱基重复的SSR是六类SSR中最丰富的一类。单子叶在三碱基和六碱基重复的SSR中富含GC,特别是水稻。(3)几种主要作物EST和SSR-EST(SSR-containing EST)的比较分析。比较分析小麦、玉米、大豆的EST和SSR-EST,发现小麦、玉米分别与水稻同源的SSR-EST明显少于小麦、玉米与水稻同源的EST。从101299条小麦同源于水稻、玉米、大麦的EST中发掘出1707条SSR-EST。(4)小麦遗传图与水稻物理图的比较。将164个小麦的遗传标记序列和水稻的基因组序列进行了比较,发现有94个标记与水稻同源,将这些同源的序列定位在水稻基因组上,为小麦—水稻的比较作图增加了新内容。(5)几种主要作物表达基因数目的预测。用EST序列拼接系统对小麦、水稻和玉米的表达基因数目进行了预测,如从160000条小麦EST中得到了4万多个表达基因。