论文部分内容阅读
基因调控网络一直是现代分子生物学研究的中心课题之一。随着新的生物技术和工具的不断发展,系统地研究和认识基因调控网络成为了可能。本文总结了我们在基因调控网络领域的一些近期研究工作。
本文首先研究了转录因子(转录调控网络的核心元件)如何与DNA序列相结合。我们发现,转录因子结合位点内的碱基之间不像通常计算方法假设的那样是相互独立的,这些碱基之间实质上是有关联性的。我们发展了基于WordCounting和最大关联分解的转录因子结合位点的识别方法。此方法一方面不需要独立性假设,同时可以处理碱基位点有删除插入的情况,因此和真实生物序列符合得更好。
接着,本文考虑了转录调控网络的元件如何相互合作组成模块以行使它们的功能。直接从DNA序列识别调控模块/转录调控区往往比较困难。我们发现转录调控区的核心部分往往比较保守,这些保守部分被同一物种内的基因甚至是不同物种间的基因所共享。基于核心调控元件的保守性与合作性,我们开发了分层随机语言模型用来识别核心转录调控区。该项工作已在生物领域取得了一定的应用,包括人的p53基因、水稻的OsALYL1基因和非编码基因等的转录调控区研究。有趣的是,通过这些研究我们发现转录调控区不仅可以在转录起始点附近,而且可以遍布在整个基因组上用以调控蛋白编码基因和非编码基因的表达。
此外,本文对转录调控网络进行了定量的分析研究。对于复杂的生物学过程,基因间往往通过非线性合作调控其下游基因。我们举例说明了细胞凋亡通路中三个基因(p53、bax和ING1)之间的相互作用关系。
最后,本文阐述了基于物理化学机制的SNP芯片数据处理的统计方法。近来,人类遗传变异研究为揭开复杂疾病的基因调控网络提供了很大的可能性。这些研究工作往往依赖于来自SNP芯片的测量数据。我们发现SNP芯片在SNP基因型分类和拷贝数变异探测上的精确性强烈的受到了芯片探针的交叉杂交的影响,因此开发了基于探针杂交的物理化学机制的统计回归方法。该方法可以有效的校正交叉杂交带来的偏差,并且取得了对SNP基因型分类和拷贝数变异探测的高精度结果。
综上,本文开发应用的概率统计方法抓住了我们关心的生物问题的本质,相对同类方法而言简单有效并且精确度高,同时其应用也增进了我们对生物问题的深入理解。