基于LZW的DNA数据压缩研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:qian7122011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十世纪生物信息学迅速发展,在信息的数量和质量上都极大地丰富了生物科学的数据资源。随着生物序列数据的日益增加,数据占用的存储空间日益增大。如何在有限的存储空间中存储更多的生物序列数据是必须面临的问题。就DNA序列数据而言,可使用数据压缩方法解决大量DNA序列数据的存储问题。 本文在研究传统压缩算法和现有的DNA序列数据压缩算法的基础上,以提高DNA序列数据的存储效率为主导思想,对经典的数据压缩算法进行改进,设计并实现适合于DNA序列数据压缩的算法,从而节省数据存储空间和间接增加生物数据库的存储量。 本文主要研究工作有: (1)综合分析现有的多种传统压缩算法及DNA序列数据压缩算法,指出各算法的优缺点,为设计改进算法提供理论和思想基础。 (2)分析基于字典压缩的LZW算法思想,根据DNA序列数据的特殊性,改进LZW算法的字典映射,引入显式字典的思想并研究字典的数据结构,提出算法改进的可能性。 (3)在对LZW字典的总体改进的基础上,根据不同的改进方向设计两种改进算法:DNA_LZW变长编码算法,DNA_LZW字典压缩算法。 DNA_LZW变长编码算法。引入动态变长编码的思想,提出算法改进的原理并设计算法结构,算法使用动态变长编码对码字进行编码压缩。 DNA_LZW字典压缩算法。引入使用完整LZW字典对DNA序列进行压缩的思想,提出算法改进的原理以及字典压缩的策略,研究最优编码长度的计算方式。算法的核心包括:字典构建、字典压缩和码字编码压缩。 综上所述,本文在分析字典压缩算法LZW基础上,结合DNA序列数据特点,提出两种改进算法。实验结果表明:两种改进算法皆优于原LZW算法,而DNA_LZW字典压缩算法的稳定性较好;两种改进算法的压缩效果均达到预期目标。
其他文献
随着计算机应用广泛地深入到各个领域,应用系统的访问控制是一个相当重要的研究问题。在数字资源日益增多的背景下,权限控制同时被用来保证数字资源的安全和合理访问。数字图书
随着计算机技术的飞速发展和广泛应用,海量信息的开放与共享日益增强,信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所,保证和加强其安全性是迫切需要解决的研究
人类一直都在进行对知识的探索,并把知识通过不同形式在社会中进行传播。网络教学是人们进行传播知识的一种方式。现行网络远程教育存在着资源标准不统一、共享难度大、个性化
863软件专业孵化器(简称:863孵化器)是科技部863计划建设的面向软件企业的技术服务和企业孵化机构,软件测试服务平台是大多数863孵化器技术服务系统中的重要组成部分。目前大部
位置依赖的信息服务(Location Dependent Information Services,简称LDISs)专指一类与位置相关的信息服务,其用户所提出的请求将会随着空间的变化而得到不同的查询结果。在无线
随着硬件技术的迅猛发展以及网络的普及,很多行业都积累了海量的,以不同形式存储的客户和个体的私人数据资料,这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用
图像是人类获取视觉信息的主要途径之一,在成像、复制、传输等过程中图像质量下降不可避免。作为图像处理的一个重要分支,图像增强具有重要意义。图像增强的基本任务是改善退化
广东地势复杂,植被类型丰富。植被四季常绿,树种分布无明显季节性和区域性规律,在南部多为混杂,遥感影像上破碎,不同类型植被光谱差异小。广东降水充沛常年云覆盖,使利用光学遥感数
随着计算机和通讯技术的发展,互联网上日益出现的海量数据以指数级别的速度不断地增加,其中大部分数据是非结构化的文本数据。如何高效地处理这些非结构化的数据,从中快速地提取
骨架是图象几何形状的一种重要拓扑描述,骨架化是图象分析与形状描述的一个重要的变换。3D图象骨架化在现实中有着广泛的应用,如3D数据的压缩、物体特征识别与跟踪、3D表面重建