人类基因组嵌合芯片数据处理流程及并行优化

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:zhuspecial
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1999年著名的人类基因组测序计划正式启动,标志着基因组时代的序幕由此拉开。随着基因组测序的完成,揭示海量生物数据背后蕴藏的生物信息,是生物学家所面临的更大挑战。在此背景下,嵌合芯片(Tiling Array)技术应运而生,已经成为一种能够获得全基因组表达图谱的高通量技术。本文就是延续嵌合芯片实验,对它的实验数据做后续的处理。   从本世纪初开始,不少研究机构陆续设计并实施了不同嵌合芯片实验,各种信号识别方法相继问世。这些方法大都针对特定的平台设计参数,并且对流程的运算性能没有太多的关注。本文试图从一个新的角度进入嵌合芯片研究领域,把对算法、软件设计和优化方法的研究作为讨论的重点。   嵌合芯片数据处理流程有四个关键步骤:探针重定位——探针共线性排查--数据提取和整合——表达信号识别。论文对这四个步骤中的大规模计算进行并行处理,有效减少了计算耗时。主要的创新性工作包括以下几个方面:   ◆探针重定位哈希快速算法的并行实现:   现有的具有普适性的序列比对软件在种子延展阶段花费时间,而探针重定位只要对提取得到的探针序列与人类基因组序列位置信息做精确比对,所以需要开发专门的嵌合芯片探针重定位程序。核心思想是构建哈希表和哈希搜索。采用生物信息领域最常用同时也是最有效的并行策略--数据分割方法实现加速并行方案。和BLAST软件的比较结果表明,算法在运行速度和内存需求上很有优势。   ◆表达信号识别的并行优化流程:   包括数据提取整合和信号识别算法调用两个步骤。究其具体实现,大数据量的数据库连接查询和信号识别非常耗费机时,因此,借鉴了数据库提高查询效率的手段——大表数据分割方法,再结合数据分割和任务部署的并行思想,设计并行策略。并行结果显示,运行时间显著减少。
其他文献
当前网络空间安全的整体格局是易攻难守。传统的防御方法以阻挡和检测为主要手段,具有一定的被动性和滞后性。拟态防御作为一种“改变游戏规则”的主动防御技术将对这种格局产
近年来,随着植物新品种申请量的逐渐增多,审批业务和管理工作也相应繁重起来,纯粹依赖人工受理植物新品种申请的方法已经不能满足当前形势,需要研究并开发一套“林业植物新品
今天,基于对等网络(P2P,Peer-to-Peer)的文件共享应用占据了互联网骨干网络70%的流量,已经成为互联网中最为重要的一类应用。对等网络下基于关键字的资源搜索是该类应用中的核心
近些年来,元数据在科学研究中发挥着的日益关键的作用,科学数据元数据概括了科学数据的内容、背景、结构、内部关系和来源,对于科学数据的管理、分析、共享、集成和应用至关重要
由于应用需求的驱动,以及基础科学技术、网络基础设施的快速发展,地理空间信息技术正在进入新的发展阶段。地理空间信息技术发展新阶段的特点突出表现在面向因特网和移动互联网
相比于传统同构多核处理器,异构多核处理器能够在同一个芯片上集成多个类型的处理器核以满足不同应用的资源需求,具有低功耗优势以及给定功耗约束下更高的性能潜力,近年来逐渐成
无线传感器网络可以广泛应用于大规模监测和追踪任务中,而网络自身定位是大多数应用的基础。节点必须明确自身位置才能详细说明“在什么位置发生了特定事件”。人工部署或为所
在大型集群场景的监控视频中,由于摄像头呈高远倾斜视角挂置,目标在视频中的形态信息相似,目标之间遮挡严重,传统的跟踪器很难获取单个目标的准确的、长时间的运动信息。为了能在
随着处理器进入“多核”时代,程序性能的提升已不能依赖单核性能增长,而转向程序并行性的开发。传统基于“锁”的并行编程机制因其编程困难、易死锁、扩展性差等缺点,成为并行程
以数据库管理系统为核心的现代信息系统要求具有高可靠性、稳定性和可用性等特点,这就要求数据库管理系统提供连续不间断的服务,一旦数据库服务器发生意外停机或数据丢失其损失