基于统计特征的DNA序列特征提取方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:qqw2020843
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,以及各种生物基因序列的研究,人们已经获得了大量的基因组序列。在这些序列中含有丰富的信息,隐藏着复杂的生物学知识。如何从已经产生的海量数据中最大限度的挖掘有价值的信息成为科学家们面临的挑战和机遇。DNA序列的特征提取对于解读人类基因组所隐藏的结构和功能具有非常重要的意义。基于序列统计特征是指运用数学和信息科学理论的方法,从错综复杂的基因组序列中,提取一些体现其本质的具有代表性的特征。本文将提出两种不同的基于统计特征的序列提取方法。两种方法都是不需要序列比对,而且比传统的方法包含更多的信息,时间复杂度也很低。一种新的基于统计特征法添加了6个碱基之间的相关因子与传统的4维核苷酸组成相结合代表一条DNA序列,这比传统的4维核苷酸组成包含更多的序列影响信息。而且为了计算简单,我们使用了对序列进行分段处理,这样减少了时间复杂度,分段值M是任意取值的,不会影响计算结果。另一种新的基于统计特征法是在信息理论基础上提出来的。利用了信息理论中的信息熵和互信息理论,把单个碱基的概率和二联核苷酸的概率作为事件概率,利用信息理论的互信息熵求出四个碱基之间的16个互信息,因此一条DNA序列特征可以用这16个互信息熵表示。这种方法结合信息理论的思想得到了更多的序列影响信息,计算量也很少。基于统计特征法应用广泛。通常用于区分基因的不同功能区域,进行序列比较分析,系统进化分析和基因分类等。本文提出的两种方法主要应用于系统进化分析中,在利用这两种新方法提取出来的特征基础上,对物种进行相似性分析,然后利用基于距离法构建进化树,采用PHYLIP软件中的Neighbor.exe程序来评估进化树的构建,通过做实验来验证这两种方法的应用性。
其他文献
一、纳税服务文化建设是实现税收职能的重要基础"天下熙熙,皆为利来;天下攘攘,皆为利往。"自古到今,追逐利润是商家的本性,无可厚非。况且,他们得到的利润绝大部分是建立在正当
通过分析山西省主要作物种植比例及其产量变化趋势,发现油料、蔬菜等经济作物种植比例显著上升;作为粮、饲兼用的玉米种植比例逐年上升;而支柱型粮食作物--小麦近年来种植比
固体氧化物燃料电池(solid oxide fuel cell,SOFC)是一种以固体氧化物为电解质,通过电化学反应直接将燃料的化学能清洁、高效地转换为电能的全固态发电装置。SOFC的突出特点是
随着我国社会治理创新的不断深入,政府愈发重视对社会组织的培育与发展,十八大以来国家及地方政府相继出台了一系列有关社会组织的政策意见,社会组织作为承接政府购买服务的
对焦炉煤气HPF脱硫工艺进行了介绍,指出其废液处理的必要性;对文献报道的几种HPF脱硫废液处理技术进行了介绍和比较,并提出了一种新的HPF脱硫工艺废液处理技术,该技术实现了H
新中国成立后,中国共产党和人民政府十分重视农作物新品种选育和良种繁育推广工作。新品种选育主要由农业科学研究单位和农业院校承担,良种繁育推广和管理则由农业行政部门负责
目前,应用断裂力学理论对在役压力管道进行断裂研究,已成为学术者研究的热点之一。由于管道结构中除了单个形式存在的裂纹外,还有多个裂纹同时存在的情况。多裂纹之间的相互
转体施工在跨越既有交通线时,以其施工简便、不中断交通的优势得到越来越多施工者的青睐,继续完善转体施工的工艺,分析转体施工过程中转体系统的受力情况,对转体系统的抗风稳