论文部分内容阅读
1999年著名的人类基因组测序计划正式启动,标志着基因组时代的序幕由此拉开。随着基因组测序的完成,揭示海量生物数据背后蕴藏的生物信息,是生物学家所面临的更大挑战。在此背景下,嵌合芯片(Tiling Array)技术应运而生,已经成为一种能够获得全基因组表达图谱的高通量技术。本文就是延续嵌合芯片实验,对它的实验数据做后续的处理。
从本世纪初开始,不少研究机构陆续设计并实施了不同嵌合芯片实验,各种信号识别方法相继问世。这些方法大都针对特定的平台设计参数,并且对流程的运算性能没有太多的关注。本文试图从一个新的角度进入嵌合芯片研究领域,把对算法、软件设计和优化方法的研究作为讨论的重点。
嵌合芯片数据处理流程有四个关键步骤:探针重定位——探针共线性排查--数据提取和整合——表达信号识别。论文对这四个步骤中的大规模计算进行并行处理,有效减少了计算耗时。主要的创新性工作包括以下几个方面:
◆探针重定位哈希快速算法的并行实现:
现有的具有普适性的序列比对软件在种子延展阶段花费时间,而探针重定位只要对提取得到的探针序列与人类基因组序列位置信息做精确比对,所以需要开发专门的嵌合芯片探针重定位程序。核心思想是构建哈希表和哈希搜索。采用生物信息领域最常用同时也是最有效的并行策略--数据分割方法实现加速并行方案。和BLAST软件的比较结果表明,算法在运行速度和内存需求上很有优势。
◆表达信号识别的并行优化流程:
包括数据提取整合和信号识别算法调用两个步骤。究其具体实现,大数据量的数据库连接查询和信号识别非常耗费机时,因此,借鉴了数据库提高查询效率的手段——大表数据分割方法,再结合数据分割和任务部署的并行思想,设计并行策略。并行结果显示,运行时间显著减少。