论文部分内容阅读
在生物体基因调控的复杂模式中,将遗传信息DNA转换成构成细胞的基本物质蛋白质的第一步就是转录起始。研究证实这些转录起始位点通常是缺乏核小体的区域,即核小体缺失区域,特殊的核小体包括+1核小体和-1核小体分布在它的两侧。这些特殊的区域为转录提供了可接近的位点,对基因的表达调控起到关键的作用。实验已经证实,多数招募转录因子的区域都是避免核小体的,表明转录起始位点附近核小体定位是转录因子结合难易的一个重要因素。而核小体的定位在很大程度上取决于DNA序列的碱基组成,因此从序列组成的角度研究核小体定位对转录功能的调控具有重要的意义。研究发现,人类基因组中基因间序列的k-mer(k>6)呈现三峰分布,其生物意义还不十分清楚。我们首先基于人类基因组一号染色体中的基因间序列,得到8-mer的相对频数随其频次的三峰分布。经研究后发现如果按照8-mer中包含≥2个、1个和0个CG二核苷将8-mer集合分成3类,可将三个峰严格区分开来。深入分析这3个集合的序列特征显示含一个CG二核苷的8-mer模体与核小体结合模体紧密相关。基于这类模体的三核苷出现的相对频数,在64个三核苷相对频数中筛选出偏好的15个三核苷和稀有的15个三核苷,以此构建核小体的特征量Ktri来表述核小体的位置。对单个人类基因转录起始位点周围序列,分别计算序列中核小体特征量Ktri的分布,并与实验给出的核小体占据率score的数据作线性相关性分析。统计结果显示,核小体特征量Ktri与实验上得到的核小体占据率score具有显著的正相关性。在分析的1177条序列中,与核小体占据率的吻合程度达到89.2%(p<0.05)和81.6%(p<0.01)。可见核小体特征量是核小体定位较敏感的参量,在一定程度上可以用该参量来预测核小体的位置。为了在统计意义上了解转录起始区域即TSS区域(-100bp-50bp)周围序列核小体的位置分布特征,运用核小体特征量对人类基因58989条转录起始序列做分类分析。发现核小体可以结合在TSS区域的任何位置,±1核小体位于TSS区域两侧的第一类基因约占28%,而在TSS区域有核小体占据的第二类基因约占30%。运用二阶信息冗余结合GC含量分析了DNA序列的序列组成和碱基关联分布,发现没有占据TSS区域的核小体对应的序列具有强碱基关联,而那些TSS区域上有核小体占据的序列则具有弱的碱基关联。而无论核小体占据或不占据TSS区域,该区域碱基之间总是弱关联,弱关联是TSS区域的普适特征。表明TSS周围的核小体具有很强的序列适应性和位置的可变性。此外,关于包含转录起始位点的核小体缺失区域的普遍观点仅对第一类基因成立。总之,本文基于人类DNA序列8-mer频数分布特点,构造了核小体特征量,该特征量与实验给出的核小体占据率之间具有很高的一致性。显示核小体特征量是预测核小体位置的一个简单有效的理论参数。另外发现并不是所有基因在TSS区域存在核小体缺失现象,核小体可以位于TSS区域的任何地方,TSS区域的碱基之间总是弱关联的。表明TSS区域处核小体对DNA序列的依赖具有更大的适应性,我们猜测基因中这种特殊的序列适应性在很大程度上受其表达水平的影响。本文的研究对于理论预测核小体定位、深入了解TSS区域组蛋白与序列的相互作用规律及基因转录的表达调控机制具有建设意义。