论文部分内容阅读
本文主要就人30个组织特异性基因上游1000bp到第一内含子序列中的组合转录调控模块的识别方法进行探讨,同时对识别得到的组合转录调控模块进行统计分析。 识别两个调控元件组合的模块(即模体对)的方法有两种:分步方法和同步方法。这两种方法都包含两个方面:模体对的共出现率,模体对的距离检验。本文在求模体对的共出现率时采用超几何分布的方法,而在检验模体对的距离时,文中应用了三种检验方法:Mann-whitney U秩和检验,两样本的Kolmogorov-Smimov检验方法,单样本的Kolmogorov-Smimov检验的方法。两种方法三种检验得到的是六种求过表达模体对的方法。用这六种方法分别求人30个组织特异性基因中的过表达模体对。分析它们的匹配率与丰度得到:同步方法的单样本Kolmogorov-Smimov检验是最优方法。此外,对这最优方法得到的过表达模体对的转录因子、分布区域、距离进行分析。结果表明:(1)不同的转录因子对有不同的调控功能:有些转录因子对可以调控不同组织的基因表达,而有些特定的转录因子对只调控特定的组织基因表达。(2)在转录调控中,不仅存在着同时出现在某一区域的模体对,还存在着跨区域的模体对。(3)在组织特异性基因中,两个相互作用的转录因子之间的距离主要集中在200bp以内。 本文采用组合方法识别两个以上调控元件组合的模块。首先,对最优方法得到的过表达模体对进行两两组合,接着,用超几何分布的模型求得三个模体组合的调控模块,进而限制400bp窗口,求多个组合转录调控模块。对多个组合转录调控模块进行分析发现,不同组织的模块具有碱基使用偏向性,有的组织偏向于A/T碱基,有的组织偏向于G/C碱基。此外,不同模块在基因中有着不同的调控能力,有的模块只在一个组织中出现,有的模块在多个组织中出现。