论文部分内容阅读
本文从SNP标记数据和基因表达谱数据的分析着手,以挖掘复杂疾病基因和研究基因功能为主要目标,发展创新的模式识别方法、数据挖掘技术和生物信息学领域知识匹配技术,提供SNP标记数据和基因表达谱数据分析的系统化、最优化策略.首先,我们明确地给出了对疾病有鉴别意义的"疾病鉴别基因"和与致病分子基础有关的"疾病相关基因"的概念和定义;第二,在复杂疾病基因定位方法的研究工作中,我们将遗传标记作为导致疾病分型的特征,视基因作图为提取疾病特征标记的模式识别问题,提出了同胞对基因连锁分析的模式识别方法.该方法能够较全面地反映多基因互作、基因和环境因素共同作用等情况,这是一种全局的分析策略,具有开创意义;第三,我们提出了基于分类树的集成特征基因挖掘的集成决策方法EFST和EFST的推广方法——基于决策森林特征基因挖掘方法.同时,对特征基因挖掘中特征识别技术做了进一步研究,利用遗传算法(GA)和支持向量机(SVM)二者优势,提出GA和SVM耦合的特征基因挖掘方法GA-SVM,由支持向量机等模式分类器评价识别的特征基因,应用Gene Ontology功能分子生物学数据库,解释了复杂疾病特征基因的分子生物学机理;第四,针对疾病的多类表现和疾病类别的层次性,我们提出了多类动态特征基因挖掘与融合的新方法,有效地解决了特征基因的局部性、稳定性、有效性、分类学的冗余性和生物学的相关性,以及特征的生物学可解释性等方面的问题;第五,我们提出了基于耦合双向聚类技术的疾病遗传异质性分析策略.利用部分有意义的基因信号发现疾病的亚型.这种分析策略克服传统的双向聚类方法或单向聚类的局限性,弥补了目前肿瘤的分型主要依赖于组织学及形态学特征的不足.我们成功地应用方法于弥漫性聚B细胞淋巴瘤异质性的分析;最后,我们提出了复杂疾病相关网络的反向构建方法,进而研究疾病相关基因间的调控关系,构建基因调控网络,在更深的层次上阐明复杂疾病的发病机理.