论文部分内容阅读
高通量测序技术是对传统测序技术的一次革命性的技术更新。相比于传统测序技术,高通量测序技术一次可测定几十万以至于上百万条DNA碱基片段。这种通量可以实现一次性对一个物种的基因组或转录组进行全面检测。随着高通量测序技术的发展,出现了许多测序平台,这包括CompleteGenomics、IlluminaHiSeq、ABI SOLiDSystem、Roche GS FLX Platform、IonTorrent及IonProton等。通过这些平台的序列信息检测,研究者能够对动植物、微生物、人,以及药物研发等多领域的核酸水平进行研究。 作为最新一代的测序平台,IonTorrent的一个特点就是测序过程中测序链上相同的连续碱基会同时参与反应(也称homopolymer,多聚碱基),从而简化和加速了测序过程。但这也存在着如何依据检测信号强度确定多聚碱基长度的问题。如何解决这一问题成为IonTorrent高通量测序技术研究的一个热点。 本文以IonTorrent的原始检测信号为依据,研究多聚碱基长度的解读方法。 首先,分析每种多聚碱基长度情况下电压检测信号的分布规律。由于Illumina测序平台不会出现多聚碱基问题,本文提出一种将Illumina和Ion torrent两种高通测序数据相结合的分析方法。其中,利用Illumina测序数据得到多聚碱基的实际长度,再依据多聚碱基长度、多聚碱基位置、碱基种类等信息对多聚碱基进行分类。然后,分析得到每一类情况下Ion torrent电压检测信号的分布规律。研究表明,每一类情况下多聚碱基的电压检测信号均大致服从正态分布。 随后,本文提出一种基于Bayes的多聚碱基分析模型。利用Bayes方法计算每个信号被解读成不同长度的后验概率。考虑该后验概率,设计了一个动态规划算法的改进的惩罚因子计算模型,以与参考基因组间的差异最小为目标,在序列的动态比对过程中,对惩罚因子计算模型中的参数进行优化求取。实验结果表明:与传统的序列分析方法相比,在多聚碱基的识别上,本文提出的方法的准确性提高了22%,从而有效证明了所提方法的可行性。