论文部分内容阅读
随着现代医学的发展和人民生活水平的提高,过去一些严重威胁人类健康的传染病、营养性疾病得到大幅控制,而遗传病则成为比较突出的问题。当前一些影响人类健康和寿命的主要疾病如高血压、糖尿病、癌症、精神疾病等都发现和遗传因素有不同程度的关联。因此,近年来寻找基因序列差异与常见疾病易患体质之间的相关性成为研究热点。对多种疾病开展的全基因组关联研究已给出很多与疾病相关的单核苷酸多态性(Single Nucleotide Polymorphism,SNP),其中多数位于非编码区。当前非编码区的功能性SNP中受到关注的是调控性SNP(regulatory SNP,rSNP),即位于顺式作用元件(如启动子、增强子、沉默子、绝缘子等)上并能够改变基因表达水平的SNP。验证调控性SNP的实验方法成本高,效率低,因此非常需要理论预测作为补充和指导。但是,目前调控性SNP理论分析和预测中存在的一个重要问题是:很多预测和分析侧重于解决SNP的定位问题,对于同位于顺式作用元件上的SNP,则缺少有效的结构属性来加以识别。这主要是因为对调控性SNP形成的内在机制缺乏本质的理解。本研究致力于在不同层次对调控性SNP的结构特征进行全面分析,以考察调控性SNP预测中结构属性的作用,深化对其机制本质的理解。主要工作如下:首先运用机器学习算法对多个结构属性进行综合分析。通过文献调研和相关数据库,我们重新搜集了一批调控性SNP和对照SNP,又从文献得到与DNA片段结构或能量相关的未曾考察过的结构属性共11个,结合同类文献的数据集和属性集作比较分析。经过属性排序可知,新加入的结构属性中,DNA螺旋参数中的升高(Rise)改变和羟基自由基切割谱改变的重要性较为靠前;训练比较后发现采用朴素贝叶斯分类器性能最佳,比文献所用支持向量机预测性能提高6%,适当选取新加入的结构属性可使预测性能有小幅提高。这部分工作启示我们,调控性SNP的预测是一个较为复杂的问题,合理选用新的结构属性可提高调控性SNP预测性能。而后,我们对位点矩阵法和羟基自由基切割法这两种重要方法分别进行深入分析。位点矩阵法的应用首先需要对多个相关数据库进行交叉筛选以得到所需的可靠数据,这些数据对于以后应用更多方法考察调控性SNP也具有重要意义。于是我们从收录转录因子结合位点最全的数据库TRANSFAC中提取了人属转录因子结合位点(Transcription Factor Binding Site,TFBS),进一步确定其在参考基因组中的准确位置,而后确定其中有183个上有SNP,它们中18个有调控性SNP,去掉重复位点后实际得到12个位点上的13个rSNP。183个位点上的SNP,位于位点矩阵内的只有32个,其中5个是调控性SNP。从数量可知,rSNP研究目前仍处于数据积累阶段,需要积累更多数据才能进行完善的统计学分析。对当前数据的统计表明,不论是SNP还是rSNP,其引起碱基频数百分比的改变从高到低都有分布。因此,认为在位点矩阵中调控性SNP所在位置的碱基保守性高的想法不能成立。据此,我们猜想很可能是因为同一转录因子与DNA结合有不止一种模式,而调控性SNP所在位置的碱基在不同模式中的作用有很大差异。其论证还需要更多细致而深入的调研和分析。之后,我们又充分考察了羟基自由基切割法在识别调控性SNP中的作用。计算表明,当以正链序列为对象时,调控性SNP和对照SNP引起的羟基自由基切割谱变化的差异有统计学意义;而以负链序列为对象时,则无统计学意义。我们认为正负链计算结果不一致是原方法的一处疏漏,与作者沟通后提出了双链算法作为改进,消除了这一矛盾,且阳性数据与对照差异显著性也有所提高。以上从综合及独立的不同角度,对调控性SNP的通用结构属性做了基于概率统计的分析。为了更深一步探究调控性SNP形成的本质,我们又运用分子动力学模拟方法从原子水平通过具体实例来分析调控性SNP的内在机制。首先从前面筛选出的有rSNP的转录因子结合位点中,在PDB数据库搜索转录因子序列,得到了有高同源性复合物结构文件的转录因子结合位点。又经核酸序列比对,进一步筛选出三个转录因子——垂体特异转录因子POU1F1、维他命D受体VDR和雄激素受体AR,以它们的DNA复合物作为模拟对象。由于时间关系,只对AR-DNA复合物的模拟结果作了全面分析。分析表明,结合态SNP的复合物中氢键总数和稳定氢键数量都明显高于非结合态复合物,且分布在整个核酸片段上。疏水作用分析发现结合态SNP中突变碱基T上的甲基导致附近的疏水作用大为增强;对两个识别螺旋相对运动的考察发现结合态复合物中两识别螺旋基本平行,而非结合态中的相对运动趋势与自由蛋白非常相似。故认为疏水作用是使该SNP成为调控性SNP的关键原因。这部分工作说明分子动力学模拟方法在合理应用的前提下,对rSNP的机制分析具有重要的参考价值。最后我们还考察了同源二聚体转录因子的两个识别螺旋的平面内相对运动的现象,对今后分析相似类型的转录因子的构象运动进而理解蛋白质-DNA结合都提供重要启示。本研究的创新点主要包括:重新综合考察了一些未用机器学习考察过的结构类属性对于识别rSNP的作用;较完整地挑选出人属TFBS上所有SNP和rSNP,为全面而深入的分析rSNP的功能机制提供了重要的数据平台;发现了羟基自由基切割法的一处疏漏并进行了改进,分析得出调控性SNP与羟基自由基切割谱改变具有相关性;将蛋白质-DNA特异性识别的研究结果应用到调控性SNP的结构机制分析中,体现了分子动力学模拟方法对rSNP的机制分析的重要参考价值;应用分子动力学模拟发现了同源二聚体转录因子的两个识别螺旋在平面内相对运动的现象,对其理论背景和适用范围作了更深入的分析。目前,与调控性SNP结构特征相关的属性、方法仍在不断涌现和完善,随着新的有效属性的合理加入,识别rSNP的综合理论模型的预测性能一定会不断提高;同时随着结构蛋白质组学受到更为广泛的关注,新测定的蛋白质-DNA结构数量日益增多,可用来分析蛋白质-DNA识别机制及调控性SNP内在原因的实例也必然越来越多。当这些实例研究获得的知识积累到一定数量,通过归纳总结,其背后的规律必然会逐渐明晰。