中国HIV-1序列的模式推断和特征分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jj13148
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HIV-1全球亚型分布不均的原因有很多,包括奠基者效应,人口增长和城市化,以及文化,性别因素,和传播联系和迁移。中国地区HIV的流行呈现主要以下特点:1)全国范围的HIV感染率低,但是部分地区严重;2) HIV携带者(PLHIV)持续增长但是新的感染率保持在低水平;3)HIV向AIDS的疾病进展导致AIDS-相关的死亡增加;4)性传播是主要的传播模式,相关感染持续增加;5)中国的流行多样且表现高进化动态。因此推测在中国HIV-1毒株的基因组序列会找到相应的特有模式。   生物序列数据挖掘方法能从大量具体的生物数据中寻找其规律,提取出特征,推断出模型,用于分类识别或预测新数据。包括生物序列模式挖掘和生物序列聚类两大类的应用。并且这两方面的应用可以交替使用,相互验证。不同的生物序列模式挖掘和聚类方法的性能和效果都不同,取决于算法,数据集的特点等。   但是一方面由于生物序列数据的特殊性,使得现有的序列数据挖掘算法无法直接在大规模生物序列数据中高效实现。并且生物序列聚类的分析(如常规的系统进化树分析)也因计算本身的限制,无法在大量样本中应用。   这里利用一类适合大规模样本的高效的挖掘方法:RIPPER对中国HIV序列进行全面的模式特征推断。特别集中分析了覆盖最多数据和具有最大信息量的V3和Env区段。   另一方面,由于并没有根据领域知识专门设计的挖掘算法,造成挖掘结果难以给出生物学解释,无法满足生物学研究要求,所以仍需要合适的分析方法和充分的理论背景挖掘结果进一步解释。   这里利用免疫逃逸表位预测方法NetMHC,突变建模pymol,信息理论和相关方法,如直接偶联分析(DCA)方法来解释中国地区HIV序列模式特征的生物学提示。   结果显示,能从中国地区HIV-1 gp120 V3区序列中提取出14个简洁的模式区分中国地区序列和非中国序列,准确率高达89%。结合测试序列集的背景,如序列的背景信息和病人的临床信息(亚型,取样地区,共受体使用情况,感染风险等)探讨模式特点的协同相关因素发现,这些模式主要表现亚型特异性。例如,模式特点1呈现B亚型特异,模式2则涵盖绝大多数01-AE亚型序列等。另外模式特点1与共受体嗜性并没有显著相关性。而在感染风险,取样省份等有显著相关性。   从免疫逃逸,结构稳定性,物理相互结合等多个方面探讨模式特点1的生物学意义。不能排除或肯定该模式的形成是因免疫逃逸的选择导致的;模式特点1在其他方面如结构的稳定性维持,位点间直接物理相互结合和共进化角度都有显著提示。后者表现在利用传统系统发生方法结合氨基酸性质的比较基因组学分析发现,模式特点对应位置上的氨基酸类型在中国和非中国地区HIV序列分簇上的特点和推断出的模式规则非常吻合。   本文首次对中国地区HIV-1序列进行全面的模式特征挖掘,利用不断发展的合适的分析理论和方法对序列模式特征进行了深入的生物学意义的探讨,并对数据挖掘和系统发生方法进行了初步的比较,最终为中国地区的流行病学研究,公共卫生,特别是疫苗的设计提供有价值的参考。
其他文献
鞭毛运动是细菌在液体环境中运动的主要形式,它不仅可以使细菌趋利避害,向适宜的环境移动,在细菌感染宿主和菌膜形成等多种细胞功能中也发挥重要作用。鞭毛的运动是通过锚定于细
随着新能源的迅速开发,对设计出效率高、重量轻的热光伏电池的要求变得非常迫切。作为最有发展前景的第三代电池:叠层热光伏电池[1][2][3],在高聚倍光下具有很高的效率、运行时所产生的噪声很小几乎可以忽略不计、由于无机械结构组成能够轻便的携带、组成热光伏系统的构造也很简单这对维修起来也比较方便、并且叠层电池在单位体积上发电功率比单结的要高等诸多优点[4]。为我们探讨多结热光伏电池打下了根基。随着对叠
杆状病毒是专一性感染昆虫的囊膜病毒,其基因组为双链环状DNA。杆状病毒在其特殊的两相复制周期中,产生两种形式的子代病毒粒子,出芽型病毒(Budded virus,BV)和包涵体型病毒(Occl
毫米波成像技术是近年来毫米波技术研究的热点之一,而无源被动毫米波成像技术是通过检测物体的热辐射能量而得到图像,具有不需要发射源,可以避免有源技术方案中目标闪烁等优
荧光互补系统(Fluorescence complementation, FC)是一种检测蛋白-蛋白、蛋白-RNA相互作用的新技术,主要包括双分子荧光互补(bimolecularfluorescence complementary,BiFC)与三分
超高频射频识别系统由于具有低成本、能够远距离读写等特点,其应用越来越广泛。本文主要针对无源超高频射频电子标签芯片的射频前端电路展开分析与研究。虽然本文对于无源超高
本文分析总结了有关多变量控制理论和自适应控制理论等方面的研究成果。研究了几种新的基于神经网络的控制算法。主要内容包括:研究了基于PIDNN(比例-积分-微分神经元网络)的
射线追踪是一种分析大尺度或大范围无线电波传播特性的方法,可应用于建立移动通信的电波传播模型。随着话务量的日益增长,小区半径逐渐缩小,发射天线处于周围建筑物的“低谷”中
整合素通过介导双向信号通路参与细胞与细胞或胞外基质的粘附以及细胞的迁移等诸多生理过程。Kindlin是近年来新发现的整合素激活因子。研究发现Kindlin蛋白C端的FERM结构域
本文主要研究在预设航标环境中,通过航标识别和跟踪,实现移动机器人的自主定位和导航。本文着重讨论了三个方面:全方位视觉的标定与校正、目标识别和跟踪、移动机器人定位和