论文部分内容阅读
保守序列是一种跨物种保守的基因组序列,而且绝大多数为非蛋白编码序列。保守序列在人类遗传疾病中发挥着重要作用。其中,一部分保守序列能够折叠形成二级结构。已鉴定的一些保守二级结构编码一些RNA分子,如microRNA、RNA编辑序列和组蛋白mRNA3端非翻译区茎环结构等。但是,对于绝大部分的保守二级结构,它们的生物学功能以及作用于它们上面的进化作用力依然是未知的。
群体的SNP数据在分析序列上的进化作用力时非常有效。SNP在群体中的频率会因为受到不同的进化作用力而表现出差异,而与其是否位于基因组中的突变热点无关。对于受纯净化选择作用的SNP,它们的频率一般会比中性SNP具有低的新生型等位基因频率(DAF)。我们运用生物信息学的方法,在人类基因组保守二级结构中找到746个SNP。这746个SNP与基因组其它区段的SNP在突变模式上并不存在显著差异,在保守二级结构内同样存在突变热点。通过与侧翼序列SNP的分布比较发现,保守二级结构上SNP密度约为其侧翼序列的2/3。相比于侧翼序列SNP,有更高比例的保守二级结构SNP具有低的DAF值。这些结果提示,有很多保守二级结构上的SNP因为受到纯净化选择作用而在现代人群中被剔除了。保守二级结构与侧翼序列在SNP密度和DAF上的差异要高于保守序列与非保守序列之间的差异,提示保守二级结构是受到纯净化选择作用最为严格的一类保守序列。我们发现,在保守二级结构内部,纯净化选择作用的强度也有差异。茎区比环区具有更低的SNP密度,而且有更高比例的茎区SNP具有低的DAF值。这个结果提示,保守二级结构上的纯净化选择力主要作用于茎区上的位点。我们推测,这可能是茎区上的突变往往比环区的突变对二级结构的造成更大的影响导致的。
我们通过寻找保守二级结构与转录因子SOX2、OCT4、NANOG、SUZ12和C-MYC结合位点之间的重叠,还分析了保守二级结构在转录调控网络中的作用。结果显示,很多保守二级结构是作为转录因子的结合位点调控了许多与发育相关的转录因子编码基因的表达。转录因子与保守二级结构之间的结合模式非常复杂,可以有多个转录因子结合到同一个保守二级结构上,也可以是一个转录因子结合到自身编码基因相关的保守二级结构上。不同的转录因子和保守二级结构结合可以主导靶基因的特异模式,当绝大多数相关的保守二级结构与SUZ12结合时,基因表达受到抑制,而当绝大多数相关的保守二级结构不与SUZ12结合时,基因表达受到激活。在转录调控网络中,约有30%的保守二级结构是作为启动子来调控基因的表达。因为转录因子SOX2、OCT4、NANOG、SUZ12和C-MYC仅仅只结合到很小一部分保守二级结构上,提示可能还有更多的转录因子会结合到保守二级结构上。因此,保守二级结构介导的转录调控网络要比目前已知的复杂得多。