真核启动子预测

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lvsby2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文分为两部分:真核启动子预测和生物大分子定量构效关系(QSAR)研究。 基因转录是遗传信息传递和表达的枢纽,是基因表达调控机制发挥作用的重要环节。而启动子是决定转录起始点和转录频率的关键元件,因此启动子的识别对整个基因组功能的诠释具有重要作用。本文第一部分采用人工神经网络(ANN)、遗传算法(GA)和马尔科夫模型(MM)这三种模式识别算法,对启动子、外显子和内含子序列中核苷酸联体的分布特性作深入探讨,发现其中的某些普遍规律,并建立识别这些DNA序列基元特征模式的神经网络模型或马尔科夫模型,已成功用于未知序列的预测。本文第一部分开展的工作和所得结论如下: 1.发展了一种新的基于内容的真核生物蛋白编码基因启动子预测方法。分别建立三种不同DNA功能区域(启动子、外显子和内含子)的位置特异性权值矩阵(PWM),通过序列在三个DNA功能区域对应的位置特异性权值矩阵中的分值来作为特征参数量化序列信息,并通过反传神经网络(BP-ANN)建立序列特征参数与序列所属类别之间的映射关系来区分启动子和非启动子序列。实验结果表明:以此方法为基础构建的系统在训练集和测试集上均表现良好,对训练集和测试集中序列的平均预测率分别为99%和97%。 2.尝试将遗传算法与神经网络结合,用遗传算法优化神经网络的连接权值,建立遗传神经网络(GA-ANN)模型,并在此模型的基础上发展了一种新的基于内容的真核生物蛋白编码基因启动子预测方法。实验结果表明:我们以此模型为基础构建的GA-ANN系统对训练集和测试集中的启动子序列均能有效识别,在训练集和测试集上的平均预测率分别为99%和98%,优于先前建立的BP-ANN系统。 3.发展了一种基于马尔科夫链理论的人类蛋白编码基因启动子预测方法。三条马尔科夫链分别用于模拟启动子、外显子和内含子区域的序列随机生成过程并以此建立相应区域的概率模型,通过计算待预测序列在三个DNA功能区域出现的概率来对其所属类别进行判定,出现概率越大,表明该序列内部碱基状态转移模式最贴合相应区域概率模型所生成的序列模式,即序列出现在该区域的可能性最大,从而判定序列属于该功能区域。一个包含400条人启动子序列、400条人外显子序列和400条人内含子序列的数据集被用于训练和测试了以此方法为基础构建的系统。实验结果表明所构建的系统能较好地区分这三种不同的DNA序列,在测试集中平均分类准确性达84%。 QSAR是考察和分析基本分子结构特征与物化性质或生物活性之间的定量相关关系。针对DNA活性位点核苷酸序列和蛋白质(多肽)中氨基酸序列的序列定重庆大学博士学位论文量构效关系(QsAM)研究是后基因组即功能基因组或蛋白质组研究中的一个前沿课题,对DNA和蛋白质的相互作用研究、蛋白质功能预测、基于蛋白质和以蛋白质为靶标的药物设计均具有重要意义。分子结构参数化是进行定量构效关系研究的重要组成部分和关键前提所在。本实验室曾提出了仅以各种非氢原子电负性及各原子之间的相对距离为主要分子结构特征的分子电性距离矢量(州田DV)用于药物分子和其它生物活性物质的结构表征。本文第二部分在本实验室前期工作的基础上,对MEDV的应用范围进行扩展,将其分别应用于DNA和多肤的结构表征中。同时在原子类型划分方面对原有MEDV进行了改进,提出按键分类的分子电性距离矢量(BMEDV),使之更能体现原子所处微环境对原子电负性和分子活性的影响。本文第二部分开展的工作和所得结论如下: 1.将MEDv的应用范围扩展至DNA体系,应用到启动子强度的QSAR研究中。由于DNA序列的结构差异主要表现在碱基上,在对启动子进行结构表征时,采用对整个启动子进行表征(V从L)和仅用碱基进行表征(Vss)两种方案。借助多元线性回归(MLR)和逐步回归(S侧[R.)技术,分别建立两种表征方案下MEDV参数与启动子强度之间的最优QSAR模型。结果表明:v从L和vss方案下选择最佳参数的个数都为2,分别为呱3、嶙;和M小M23;两种方案下的相关系数分别为0.902、0.905;交互检验相关系数分别为0.878、0.882;说明模型具有良好的估计能力和较强的预测能力。同时,通过对两种方案进行对比分析发现:无论是估计能力还是预测能力,Vss表征方案都优于V从L表征方案。这说明了DNA的结构特征主要表现在碱基上,可以用碱基代替DNA进行结构表征与QsAR研究,从而减小计算复杂度,提高研究效率。 2.提出一个新的分子结构描述子一按键分类的分子电性距离矢量(B MEDV)来表征变形虫穿孔肤及其类似物的分子结构,以对人类病原体白色念珠菌(Candidaalhicans)的最低生长抑制浓度(如C)的对数值为抗菌活性指标,借助多元线性回归和逐步回归分别建立QsAR模型。结果表明:所得模型相当稳定且有较强的预测能力;VALL、Vs、Vss、VMos、VMoss五种表征方案下最优模型的相关系数分别为:0.943、0.912、0.904、0.866、0.945;交互检验的相关系数分别为:0.737、0.843、0.815、0.745、0.830。通过对五种表征方案进行对比分析发现,多肤的结构特征主要表现在氨基酸的残基上,可以用残基的矢量描述子来表征整个多肤的结构,从而使表征过程更为简洁有效?
其他文献
<正>一般热学参考书中无不谈及热力学第一定律在理想气体中的应用,本文则对热力学第一定律在范德瓦耳斯气体中的应用作一探讨.需要事先说明的是,第一,只考虑一摩尔范氏气体,
目前,在基层医院中,治疗原发性肾病综合征(PNS)的过程中,至今仍存在认识模糊,甚至治疗混乱的情况,而导致PNS复发者较多.
针对深水油气开发中因密闭环空压力升高而导致的套管挤毁、破裂等问题,研制了一种深水井套管环空泄压装置,并对其进行了性能测试和现场应用。该泄压装置以高精度破裂盘为核心
非政府组织是中国当代的新生事物,我国非政府组织的发展具有本国特色,所发挥的功能是多样化的,需要重视和引导,保障其健康发展。
农村基层治理是国家治理的基石。河南强化农村党建引领基层治理体制机制保障,是推进治理体系和治理能力现代化的有力抓手、全面实施乡村振兴战略的重要举措、实现"两个高质量