论文部分内容阅读
HIV-1全球亚型分布不均的原因有很多,包括奠基者效应,人口增长和城市化,以及文化,性别因素,和传播联系和迁移。中国地区HIV的流行呈现主要以下特点:1)全国范围的HIV感染率低,但是部分地区严重;2) HIV携带者(PLHIV)持续增长但是新的感染率保持在低水平;3)HIV向AIDS的疾病进展导致AIDS-相关的死亡增加;4)性传播是主要的传播模式,相关感染持续增加;5)中国的流行多样且表现高进化动态。因此推测在中国HIV-1毒株的基因组序列会找到相应的特有模式。
生物序列数据挖掘方法能从大量具体的生物数据中寻找其规律,提取出特征,推断出模型,用于分类识别或预测新数据。包括生物序列模式挖掘和生物序列聚类两大类的应用。并且这两方面的应用可以交替使用,相互验证。不同的生物序列模式挖掘和聚类方法的性能和效果都不同,取决于算法,数据集的特点等。
但是一方面由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。并且生物序列聚类的分析(如常规的系统进化树分析)也因计算本身的限制,无法在大量样本中应用。
这里利用一类适合大规模样本的高效的挖掘方法:RIPPER对中国HIV序列进行全面的模式特征推断。特别集中分析了覆盖最多数据和具有最大信息量的V3和Env区段。
另一方面,由于并没有根据领域知识专门设计的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求,所以仍需要合适的分析方法和充分的理论背景挖掘结果进一步解释。
这里利用免疫逃逸表位预测方法NetMHC,突变建模pymol,信息理论和相关方法,如直接偶联分析(DCA)方法来解释中国地区HIV序列模式特征的生物学提示。
结果显示,能从中国地区HIV-1 gp120 V3区序列中提取出14个简洁的模式区分中国地区序列和非中国序列,准确率高达89%。结合测试序列集的背景,如序列的背景信息和病人的临床信息(亚型,取样地区,共受体使用情况,感染风险等)探讨模式特点的协同相关因素发现,这些模式主要表现亚型特异性。例如,模式特点1呈现B亚型特异,模式2则涵盖绝大多数01-AE亚型序列等。另外模式特点1与共受体嗜性并没有显著相关性。而在感染风险,取样省份等有显著相关性。
从免疫逃逸,结构稳定性,物理相互结合等多个方面探讨模式特点1的生物学意义。不能排除或肯定该模式的形成是因免疫逃逸的选择导致的;模式特点1在其他方面如结构的稳定性维持,位点间直接物理相互结合和共进化角度都有显著提示。后者表现在利用传统系统发生方法结合氨基酸性质的比较基因组学分析发现,模式特点对应位置上的氨基酸类型在中国和非中国地区HIV序列分簇上的特点和推断出的模式规则非常吻合。
本文首次对中国地区HIV-1序列进行全面的模式特征挖掘,利用不断发展的合适的分析理论和方法对序列模式特征进行了深入的生物学意义的探讨,并对数据挖掘和系统发生方法进行了初步的比较,最终为中国地区的流行病学研究,公共卫生,特别是疫苗的设计提供有价值的参考。