论文部分内容阅读
研究目的:本研究对动脉粥样硬化(Atherosclerosis,AS)患者基因芯片数据进行数据分析,来寻找AS发生发展过程的潜在基因。本研究的目的是通过生物信息学技术整合并分析已知的数据,通过R语言分析差异表达基因并分析其生物功能及通路。通过蛋白互作网络的分析筛选得到分数较高的24个差异基因,再通过检索文章验证本研究结论的准确性,从而寻找AS发生发展过程的潜在基因。研究方法:本研究以”Atherosclerosis”为关键词检索美国国家生物技术信息中心(NCBI)的GEO数据库(www.ncbi.nlm.nih.gov/geo)中搜索已公布的动脉粥样硬化的基因芯片数据集,下载GEO数据库中高通量基因芯片数据GSE43292和GSE28829,共包括46例颈动脉粥样硬化斑块组织。随后用R语limma包进行数据标准化,并以log fold change>1.5,adjust<0.05为标准筛选出数据中的差异基因,使用DAVID在线数据库进行了差异基因功能分析,并用KEGG数据库进行了差异基因的通路分析,并以P<0.05为标准进行了可视化展示。后使用STRING数据库进行蛋白质相互作用网络分析选择综合分数大于0.4的主要蛋白相互作用网络,将得到的互作网络导入Cytoscape软件[9-10]]中进一步分析。使用Cytoscape软件绘制了蛋白互作网络,并使用MCODE模块以MCODE scores>5,degree cut-off=2,node score cut-off=0.2,Max depth=100,k-score=2为标准确定了网络中重要的区域,并进行可视化展示。随后再通过检索文章验证本研究结论的准确性和真实性。研究结果:经过将原始数据进行标准化,本研究得到了标准化处理后的箱式分布图。通过对标准化数据的聚类分析,绘制了热图并在热图中发现基因的表达聚类的现象。通过对差异基因的筛选分别得到了1486个上调基因和1333个下调基因并用火山图进行了展示,将得到的差异性表达的基因在DAVID在线数据库进行分析得出差异基因的细胞组分的变化主要富集在细胞表面、血浆膜外侧、细胞外体、细胞外区域,细胞基质,主要的生物学过程富集在免疫球蛋白受体结合、免疫反应、炎症反应、cAMP信号通路、细胞粘附通路、环状体强化和色氨酸代谢通路等。使用STRING数据库进行蛋白质相互作用网络分析并导入Cytoscape软件从而筛选出了24个关键基因MMP9、CXCR4、FABP4等为可能导致动脉粥样硬化的潜在关键基因,通过检索文章以验证本研究结论的准确性和真实性,最终得出MMP9、CXCR4、FABP4与AS相关。研究结论和研究意义:本研究得出了MMP9、CXCR4、FABP4与动脉粥样硬化相关,它们可能是动脉粥样硬化的标志物。最后,本研究共确定了24个关键基因,除MMP9、FABP4和CXCR4外其他的基因在本研究中同样具有高的分数且P值具有统计学差异,由此推测它们可能与动脉粥样硬化相关。本研究意义为应用生物信息学技术与动脉粥样硬化相结合,从而为动脉粥样硬化的分子诊断和治疗的开发提供算法预测和数据分析支持,以帮助我们更早,更快速地发现致病靶基因,并进一步指导临床诊断与治疗。本研究的创新之处为采用生物信息学方法研究动脉粥样硬化潜在致病基因,不同于综述和Meta分析,是一种方法的创新,本研究将得到的数据进一步标准化,减少了不同研究基因数据的差异。