若干生物信息数据并行处理研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：TTjj09

【摘要】

：

在生物信息领域，基于多种相互作用检测方法，产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展，产生了大量的DNA序列数据;由于蛋白质定量精度的提高，现代质谱仪器产

【作者】

：

詹科

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

生物信息学数据并行处理算法优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在生物信息领域，基于多种相互作用检测方法，产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展，产生了大量的DNA序列数据;由于蛋白质定量精度的提高，现代质谱仪器产生了大量质谱数据，如何有效利用互作数据以理解蛋白质的生物学功能，如何对DNA序列数据进行快速、高效的压缩存储，如何提升非标记定量软件的性能，是重要的问题。　　本文主要基于以蛋白质相互作用，DNA序列，质谱数据为代表的生物信息学数据，研究相关并行算法。具体贡献如下:　　1、使用MCL算法对已知的4个酵母蛋白质相互作用网络进行聚类，基于聚类结果，利用PValue算法和Majority算法对未知蛋白质功能进行预测，结果表明，预测了新的未知蛋白质功能，更进一步，基于OpenMP，我们对PValue算法进行并行化，结果表明，取得了2倍的加速比。　　2、非流水线模型并行DSRC算法。有多种软件用于压缩/解压缩FASTQ格式的数据。其中，DSRC算法有较优的压缩率和压缩速度。因此，希望通过对DSRC算法并行化，以更快压缩FASTQ格式的数据。DSRC算法的所有压缩指令都在Process函数中执行（Process函数执行时间占全部指令执行时间的71％）。并行算法的思路是开启多个线程，读取一定的数据，多线程同时执行Process函数，以实现压缩指令的并行执行。结果表明，使用单线程，2线程，4线程，Process函数几乎有线性加速比。当线程数增加到8或者10时，相对于4线程，性能下降。　　3、基于流水线模型并行DSRC算法。经分析，DSRC算法的串行压缩/解压缩部分，压缩/解压缩操作由三种操作完成:从文件读取原始数据，压缩/解压缩数据，写结果数据至文件。基于这三种操作，提出一种运行于多核平台的多线程DSRC算法。在并行算法中，一个读线程和一个写线程分别处理输入/输出文件。同时，有多个工作线程压缩/解压缩数据。输入/输出队列用于不同线程间的缓冲区。基于上述单流水线，将算法扩展为多流水线算法，以更好发挥多核平台NUMA架构的优点。测试结果表明，相比串行DSRC算法，并行DSRC压缩部分取得24.71倍加速，解压缩部分取得22.00倍加速。　　4、测试基于MPI和CUDA优化蛋白质非标记定量算法，结果表明，单GPU上运行的加速比为8.1。16个GPU对单GPU的加速比为14.18，并行效率为89％。

其他文献

BitTorrent协议数据调度技术研究

在今天的互联网上进行大规模的数据分发是一个常见的应用，传统的C/S架构对于这种应用来说，成本高昂，可扩展性差。近年来，出现了基于P2P的分发技术，它允许接受服务的客户端也共享它

学位

数据调度策略网络性能网络协议对等网络

代价敏感支持向量机及其应用

数据挖掘技术经过多年的发展，已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的，以数据库技术、统计学、人工智

学位

数据挖掘支持向量机代价敏感算法数据预测

电信网络资源管理系统设计及功能模块实现

随着国内电信运营竞争格局的形成和中国加入WTO，电信运营商需要更快、更好地满足市场需求，进一步提高经营和管理效率，降低企业运营成本，以获取更大的企业效益，这对电信企业的运营

学位

电信企业网络资源管理集约化管理管理系统网络数据共享数据库

MAPGIS-IMS7.1负载均衡与容错的研究与实现

WebGIS是Web技术和GIS技术相结合的产物，它在地理信息系统平台基础上嵌入HTTP和TCP/IP协议，实现互联网环境下的GIS服务共享功能。WebGIS因为其本身表现方式的优雅、多样性、便

学位

地理信息系统GIS服务MAPGIS-IMS7.1负载均衡器容错技术

基于Linux的TCP/IP分布式计算应用研究——黄石移动GSM话务系统计数模块实现

随着个人电脑的使用普及，越来越多的单位和家庭都拥有了不同数量的电脑设备和其他的产品。在日常的工作和生活中，大部分的个人电脑只是处理一般的文档操作和低强度的事务处理。

学位

分布式计算Linux操作系统多线程技术话务系统

基于局部特征变换的人脸识别方法

人脸识别技术就是利用计算机分析人脸图像，提取有效的特征信息来辨认身份或者判别待定状态的一门技术。它涉及模式识别、图像处理、计算机视觉等诸多学科的知识，是当前研究的热

学位

人脸识别图像处理特征提取人脸图像

融合触觉反馈的多通道交互模型研究

多通道交互是人机交互领域的重要研究方向，综合利用多个通道的信息能够提供更加自然、高效的交互体验。当前的触觉技术发展和可穿戴界面的交互特征给多通道交互的研究和应用设

学位

计算机技术多通道交互触觉反馈

园林信息管理模型的设计与实现

本文主要研究了对园林数据的存储组织、查询管理和统计分析。利用地理信息系统(GIS)技术、数据库技术设计开发出园林信息管理模型，实现对公园绿地、附属绿地、行道树、古树名

学位

地理信息系统数据库信息管理系统园林信息

EPDL语言继承的编译实现

随着越来越多的成功软件系统成为了遗产系统(legacy system)，软件演化的重要性和普及性越来越强。软件演化已成为软件生存周期中最重要的形态之一，进入了软件的各个领域，成为了

学位

软件系统遗产系统软件演化过程描述语言软件开发

一种新型的用户兴趣模型的构建与应用

随着Internet的迅速发展，各种信息以指数级的速度增长，类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题，如何满足各种用户不同的个性化需求等，是研究人员面临的

学位

用户模型兴趣特征词SVM文本分类兴趣更新

若干生物信息数据并行处理研究

其他学术论文