论文部分内容阅读
随机模型和统计方法一直在生物数学交叉学科中起着十分重要的作用。本文以群体遗传学(Population Genetics)中的一类热点问题即基因交流为研究背景,建立数学模型来实现群体的历史情况的刻画和推断。 本文首先将研究的重点放在一种特殊的生物学数据,称为同源一致性数据——Identity By Descent(IBD)。这类数据是两个个体的DNA中那些来自同一祖先的片段,IBD包含大量的近代祖先信息,为研究群体历史提供了一个新的角度。近年来,Palamara等人提出了一个叫做IBD共享率的概念,并指出其计算难点在于推导溯祖时间的分布,这种新方法先后被运用到经典的Wright-Fisher模型和简单的小岛迁移模型中,并在实验上证实了基于IBD共享率的方法估计群体参数的可行性。但在小岛迁移模型中,Palamara等人的方法有一定的疏漏,使得其方法在有效群体大小偏低时候其估计值存在较大偏差。在本文中,我们给出了更为严格的IBD共享率公式的推导,然后通过引入地理性溯祖过程,将IBD数据重新应用于小岛迁移模型。在这个随机模型框架下,我们利用马氏过程理论研究了溯祖时间的分布,并从理论和实验上验证了我们的IBD共享率方法要优于Palamara等人的方法。进一步,本文将IBD数据应用到另一基因交流模型中,即由基因交流所形成的混合群体模型,这是一种研究混合问题新的应用思路,我们重点研究了IBD片段长度的理论分布以及IBD方法在模拟和实际数据中的表现。 随后,本文考虑了数学模型在研究同时受到混合和近亲效应影响的中东人群多样性中的应用。我们利用相关的分析方法对中东人群的数据进行系统地分析,找出了群体中同时存在混合和近亲结合的支持证据。然后引入适合的统计量来对其进行度量,并从SNP和个体两种角度下来研究混合、近亲两种效应与群体多样性之间关系。最后利用线性回归的方法,证实了前人的假设,在中东人群中混合可以增加群体的多样性而近亲结合会降低群体的多样性。这种同时考虑并度量两种效应对多样性的影响并进行定量研究尚属首次。 本文以群体数据作为基础,利用随机模型和统计理论研究了数个带有基因交流的群体历史的回溯问题,展示了在生物问题中随机模型和统计理论应用的巨大潜力。相信本文中所使用的研究思路和方法,将进一步拓展生命科学的研究的深度与广度。