论文部分内容阅读
Motif是在多个序列中(近似)出现的一个短串。DNA序列的motif识别在生物学研究中有很多应用。本文提出一种用于motif识别的随机算法,并且对其进行性能改进,最后形成一个可用的软件。
本文包含以下工作:(1)为consensuspattern问题设计了一个随机算法,并且证明了:给定误差范围£,在用户指定的1-δ概率下,我们的算法可以在多项式时间内找到一个位于误差范围内的pattern。(2)我们将该算法与EM(ExpectationMaximization)算法结合,并对算法作出改进,性能提高很多。我们根据改进后的算法设计了一个motif识别软件,该软件在处理真实DNA数据时,能够同时找到多个motif。(3)我们将该软件与Projection(目前最好的motif识别程序)作了性能对比,结果表明,在较短的motif上我们的程序不如Projection速度快,但在识别较长、较难的motif时我们的程序具有更好的准确度和速度。