基于LZW的DNA数据压缩研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户：qian7122011

【摘要】

：

二十世纪生物信息学迅速发展，在信息的数量和质量上都极大地丰富了生物科学的数据资源。随着生物序列数据的日益增加，数据占用的存储空间日益增大。如何在有限的存储空间中存储

【作者】

：

苏冠贤

【机构】

：

华南农业大学

【出处】

：

华南农业大学

【发表日期】

：

2008年期

【关键词】

：

数据压缩 DNA序列数据字典压缩算法生物信息学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二十世纪生物信息学迅速发展，在信息的数量和质量上都极大地丰富了生物科学的数据资源。随着生物序列数据的日益增加，数据占用的存储空间日益增大。如何在有限的存储空间中存储更多的生物序列数据是必须面临的问题。就DNA序列数据而言，可使用数据压缩方法解决大量DNA序列数据的存储问题。本文在研究传统压缩算法和现有的DNA序列数据压缩算法的基础上，以提高DNA序列数据的存储效率为主导思想，对经典的数据压缩算法进行改进，设计并实现适合于DNA序列数据压缩的算法，从而节省数据存储空间和间接增加生物数据库的存储量。本文主要研究工作有： (1)综合分析现有的多种传统压缩算法及DNA序列数据压缩算法，指出各算法的优缺点，为设计改进算法提供理论和思想基础。 (2)分析基于字典压缩的LZW算法思想，根据DNA序列数据的特殊性，改进LZW算法的字典映射，引入显式字典的思想并研究字典的数据结构，提出算法改进的可能性。 (3)在对LZW字典的总体改进的基础上，根据不同的改进方向设计两种改进算法：DNA_LZW变长编码算法，DNA_LZW字典压缩算法。 DNA_LZW变长编码算法。引入动态变长编码的思想，提出算法改进的原理并设计算法结构，算法使用动态变长编码对码字进行编码压缩。 DNA_LZW字典压缩算法。引入使用完整LZW字典对DNA序列进行压缩的思想，提出算法改进的原理以及字典压缩的策略，研究最优编码长度的计算方式。算法的核心包括：字典构建、字典压缩和码字编码压缩。综上所述，本文在分析字典压缩算法LZW基础上，结合DNA序列数据特点，提出两种改进算法。实验结果表明：两种改进算法皆优于原LZW算法，而DNA_LZW字典压缩算法的稳定性较好；两种改进算法的压缩效果均达到预期目标。

其他文献

基于策略模型的访问控制系统的设计与实现

随着计算机应用广泛地深入到各个领域，应用系统的访问控制是一个相当重要的研究问题。在数字资源日益增多的背景下，权限控制同时被用来保证数字资源的安全和合理访问。数字图书

学位

数字图书馆动态访问控制形式化语义DACM模型PRL描述语言系统设计

MySQL存储过程的PL/SQL兼容性研究与实现

随着计算机技术的飞速发展和广泛应用，海量信息的开放与共享日益增强，信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所，保证和加强其安全性是迫切需要解决的研究

学位

数据库应用程序存储过程SQL语言PL/SQLMySQL开放源码兼容性

经济学领域本体的构建及其可视化

人类一直都在进行对知识的探索，并把知识通过不同形式在社会中进行传播。网络教学是人们进行传播知识的一种方式。现行网络远程教育存在着资源标准不统一、共享难度大、个性化

学位

西方经济学本体构建可视化技术语义网络网络教学

863孵化器测试服务协同平台的设计与实现

863软件专业孵化器(简称：863孵化器)是科技部863计划建设的面向软件企业的技术服务和企业孵化机构，软件测试服务平台是大多数863孵化器技术服务系统中的重要组成部分。目前大部

学位

863孵化器测试协同平台SOA架构Web服务流程引擎

MANET中位置依赖缓存管理研究

位置依赖的信息服务(Location Dependent Information Services，简称LDISs)专指一类与位置相关的信息服务，其用户所提出的请求将会随着空间的变化而得到不同的查询结果。在无线

学位

位置依赖信息服务移动自组网协同缓存管理运动预测模型节能策略

隐私保护分类方法设计及其在移动通信客户行为分析中的应用

随着硬件技术的迅猛发展以及网络的普及，很多行业都积累了海量的，以不同形式存储的客户和个体的私人数据资料，这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用

学位

私有数据隐私保护数据挖掘挖掘算法数据加密信息隐藏移动通信客户行为分析

自适应滤波器在Retinex图像增强算法中的研究和应用

图像是人类获取视觉信息的主要途径之一，在成像、复制、传输等过程中图像质量下降不可避免。作为图像处理的一个重要分支，图像增强具有重要意义。图像增强的基本任务是改善退化

学位

图像处理图像增强Retinex算法自适应滤波器

基于多源遥感数据的广东土地覆盖分类方法研究

广东地势复杂，植被类型丰富。植被四季常绿，树种分布无明显季节性和区域性规律，在南部多为混杂，遥感影像上破碎，不同类型植被光谱差异小。广东降水充沛常年云覆盖，使利用光学遥感数

学位

土地植被分类算法地物特征多源遥感数据面向对象

基于文本情感计算技术的专题领域挖掘的研究

随着计算机和通讯技术的发展，互联网上日益出现的海量数据以指数级别的速度不断地增加，其中大部分数据是非结构化的文本数据。如何高效地处理这些非结构化的数据，从中快速地提取

学位

文本情感计算数据挖掘聚类分析K-means算法SVM预测机器学习模型数学建模

距离变换及Snake模型在3D骨架化中的应用

骨架是图象几何形状的一种重要拓扑描述，骨架化是图象分析与形状描述的一个重要的变换。3D图象骨架化在现实中有着广泛的应用，如3D数据的压缩、物体特征识别与跟踪、3D表面重建

学位

骨架化三维图像距离变换B-Snake模型B样条曲线GPU通用计算

基于LZW的DNA数据压缩研究

其他学术论文