论文部分内容阅读
研究背景原发性高血压是一类由遗传易感性和环境因素相互作用引起以血压升高为主要临床表现伴或不伴有多种心血管危险因素的综合症,是最常见的慢性非传染性疾病,也是心脑血管病最主要的危险因素,不仅致残、致死率高,而且严重消耗医疗和社会资源,给家庭和国家造成沉重负担。近年来,随着社会老龄化的加速到来和人民群众生活方式的巨大变化,我国心、脑血管疾病的发生和死亡人数也在不断上升,其中死亡人数占我国总死亡率的比例甚至已达到40%左右,高血压已经成为一个让人担忧的公共卫生问题。根据2002年调查数据,我国18岁以上成人高血压患病率为18.8%,估计目前我国约有2亿高血压患者,约占全球高血压总人数的1/5。尤其是中青年,已经从1991年的29%增加到2002年的34%,是我国高血压患病率持续升高和患病人数剧增的主要来源。研究表明,有50%-60%的血压水平的变异可以归因于遗传因素的改变,因此,在基因水平上探索原发性高血压发病机制是当今的一个研究热点。目前,对于原发性高血压易感基因的研究国内外主要采取候选基因研究、基于遗传标志的连锁分析及全基因组关联研究等方法。在候选基因研究中,目前,研究主要集中在肾素-血管紧张素-醛固酮系统、G-蛋白信号传导系统、儿茶酚胺肾上腺素能系统、离子通道、炎症、内皮相关因子等;基于遗传标志的连锁分析发现血压调节基因及高血压易感基因的策略主要是利用连锁重组率的原理研究致病基因与参考位点(遗传标记)的关系;全基因组关联分析(Genome-wide association study,GWAS)是指在人类全基因组范围内找出存在的序列变异,从中筛选出与疾病相关的单核苷酸多态性。这些分子生物学方法以及基因遗传学方法在一定程度上找到了一些影响血压变化的基因变异位点,但是仍旧存在一些不足的地方:(1)与高血压致病性相关的易感基因位点的研究多集中于常见变异类型,对于稀有变异在高血压发病机制中的作用还知之甚少;(2)众多研究所发现的与血压变异相关的基因位点只存在于特定的人群中,但是由于遗传背景、饮食结构、相关环境等因素的差异,所以大多发现的基因位点不能进一步在不同人种之间进行重复验证;(3)研究大多需要样本量足够大才能获得显著关联性的结果,而且在发现某个基因位点的变异对血压变化的影响都极其微弱;(4)研究多集中于基因位点变异对血压水平或高血压发病风险的关联研究。因此,随着第二代测序技术的迅猛发展,越来越多的疾病研究利用第二代测序方法进行研究,目前应用最为广泛的是Illumina公司Solexa Genome Analyzer/HiSeq System平台的测序仪,大多数研究机构采用的都是该公司的测序系统,该测序平台所生产的一系列测序仪可以完成从头测序、全基因组重测序、外显子测序、转录组测序等多种测序方法,满足不同研究者的研究需求,而在这里面全基因组重测序由于其可以在全基因组水平上扫描并检测与表型差异、疾病、进化等相关的变异位点,全面地挖掘基因序列差异和结构变异,包括单核苷酸多态性(Single Nucleotide Polymorphisms,SNPs)、单核苷酸变异(Single Nucleotide Variants,SNVs)、插入缺失变异(Insertion/Deletions,InDels)、拷贝数变异(Copy Number Variations,CNVs)和结构变异(Structure Variants,SVs)等,并且还具有时间短、准确度高、通量高、成本低等一系列优点,所以成为了实现基因型多样性分析、遗传进化分析以及致病和易感性基因筛选的首要选择,具有重大的科研价值。目前在第二代测序的临床应用中,主要包括单基因病致病基因的筛查和鉴定、家族遗传性疾病的筛查、无创产前诊断技术、肿瘤标志物的检测、感染性疾病的诊断、新生儿遗传代谢病筛查、个体化用药指导等方面,可以看出第二代测序技术问世以来飞速的发展,带来了巨大的科技红利。另外,虽然个体测序成本已经很低,但是大规模的应用仍旧是昂贵的,因此DNA混合池(DNA pooling)策略的出现节省了大规模进行基因测序研究的成本,DNA pooling指,将一定数量的等摩尔量的样本DNA提取出来混合在一起组成混合池,然后再进行基因测序等后续研究。并且国内外的研究学者对大样本 DNA pooling 之后进行第二代测序(Next Generation Sequencing,NGS),与个体进行NGS之后进行验证,发现差异不影响结果,可信度高,说明DNA pooling应用于DNA研究是可行的。随着第二代测序技术的飞速发展,海量的数据分析也带动了生物信息学的发展,各种计算机软件以及网上数据分析平台层出不穷,为解决海量数据分析提供了有力工具,各国建立的公共数据库也为疾病研究提供很好的基础,可以这样说生物信息学将基因组、信息结构和复杂性三者有机结合到一起,综合利用各种工具对基因进行分析。测序得到的原始数据是海量的,首先就要经过计算机软件进行比对,然后识别、注释,再进一步进行通路分析,最主要的也是应用最多的软件包括:BWA、SOAPsnp、SAMtools、CNVnator、Varscan、BreakDancer、ANNOVAR等。生物信息学的飞速发展,进一步推动了生命科学的飞速发展,也为人类早一天彻底战胜疾病打好了基础。因此,鉴于原发性高血压对社会和家庭的重要影响,本研究将利用第二代测序技术,结合DNA pooling策略和生物信息学分析技术来探讨原发性高血压的易感基因,初步研究相关原发性高血压易感基因在可能参与到的与其致病有关的生物学通路。目的应用第二代测序技术结合DNA pooling策略和生物信息学分析技术研究原发性高血压的发病机制,以期在全基因组水平上发现与原发性高血压发病机制相关的可能易感基因以及基因-基因间是否存在的相互作用。为阐明原发性高血压病理生理机制、原发性高血压基因型检测芯片的研发提供理论基础,为早期发现原发性高血压高危人群并对选择性药物治疗提供依据,对早期发现和预防原发性高血压高危人群有重要意义,能够显著降低高血压对社会造成的经济负担和心理压力。方法在本研究中研究对象为南方医科大学附属桂林医院健康管理中心两年内参加体检的健康人以及从心血管内科选取的原发性高血压患者,从中随机筛选并抽取外周血样本,分别建立正常组DNA pooling和疾病组DNA pooling,然后分别构建DNA文库进行全基因组重测序。在将病例组与对照组分别进行全基因重测序之后,再对两组测序得出的原始数据分别进行高通量基因组测序初步生物信息学分析。生物信息学分析开始于测序原始数据的获得,首先,在质控阶段将接头序列、低质量的序列去除,得到“clean data”。然后使用Burrows Wheeler Aligner(BWA)软件与参考序列进行比对,比对数据以BAM格式存储,以备后续使用。对于 SNPs、InDels、CNVs、SNVs、SVs、Somatic CNVs 等各种变异分别使用 SOAPsnp、SAMtools、CNVnator、Varscan、BreakDancer 等软件进行识别,应用ANNOVAR软件对所有的变异序列进行注释,并且在每一次数据运行期间必须包含质控环节去除杂质数据,以保证数据的准确性。两组分别进行初步生物信息学分析之后,对检测到的基因变异位点数据,将结合分组情况,采用Fisher Exact Test进行疾病组和正常组的分组检验分析,检测显著(p<0.01)的位点即推测为与疾病相关的变异位点,然后再利用公共数据库进行过滤,包括单核苷酸多态性数据库、千人基因组计划、人类基因组单体型图计划和炎黄基因组数据等公共数据库,然后统计变异类型,并且将其在全基因组水平上进行分布分析,利用GO功能注释、KEGG通路分析、亚细胞定位分析、变异基因相互作用分析等对筛选出的变异位点进行生物信息学检验,从而推测可能参与原发性高血压发病的易感基因以及信号通路。结果①病例组和对照组分别产生了 1,342,263,722和1,273,028,056的原始reads,大约为120.8Gb和114.5Gb规模的序列,分别以36.13倍和32.76倍的测序深度得到了 99.88%和99.84%的极高覆盖率。②通过分组检验分析得到33,919个SNV位点、18,594个InDel位点、352个SV位点和88,707个CNV位点,发现无论是在全基因组范围内还是在编码区C:G→T:A的变异类型最多,分别达到12,314和91个位点信息。③原发性高血压相关变异基因的GO分析结果提示大部分的变异基因集中在生物粘附、应激反应、新陈代谢、生物调节、免疫系统进程、细胞外基质、细胞器部分、细胞外区域、细胞连接、分子之间的结合、蛋白质结合转录因子活性、结构分子活性、核苷酸结合转录因子活性、转运蛋白活性、酶调节剂活性、鸟嘌呤交换因子活性、各种受体活性等方面。④原发性高血压相关易感基因的KEGG通路分析,原发性高血压患者的变异基因可能参与121条生物信号通路,其中7条生物通路显著富集:PI3K-Akt信号通路、原发性免疫缺陷、ECM受体相互作用、B细胞受体信号通路、T细胞受体信号通路、黏附斑和小细胞肺癌通路,在显著富集通路里面发现CD4、CIITA、ADA、RFXAP、CD19、NFATC1、NFKBIA、INPPL1、VAV2、PIK3CD、CARD11、DAPP1、FCGR2B、CHUK、IKBKB、PIK3R2、CD22、PIK3AP1、CBLC、CBLB、CD4、MAPK12、PRKCQ、PAK6与免疫系统信号通路有关,其中CD19、NFATC1、NFKBIA、VAV2、PIK3CD、CARD11、CHUK、IKBKB、PIK3R2 分别参与了两种以上信号通路。⑤利用signalP、targetP、TMHMM软件分别预测到192个可能信号肽位点、216个跨膜区变异和299个详细的变异基因亚细胞定位。⑥通过PPI网络构建,根据平均最短路径长度(average shortest path length)、聚类系数(clustering coefficient)、接近中心性(closeness centrality)、节点度(degree)、有向边数量(Number Of Directed Edges)、节点介数(Edge Betweenness)等参数,本研究发现 FN1 与 PKN1、FN1与 BZRAP1、BZRAP1与 LPHN1、MYT1L与CWF19L1、NIPBL 与 CD19、CDC5L 与 PKN1、SLC2A10与FN1、MYT1L与CDC5L、RPL6与ETF4、5MC4与CDC5L之间网络通路最为密集,通过的信息量大,可能对生物功能产生重要的影响,另外,FN1、VWF、SMC4、CDC5L、CD19、MUC4、MUC12、PTH、PKN1、CHUK、ARHGAP19、NEK2、NIPBL、GBP4、MUC6、KMT2D、NUP153、TACC2这18个节点是拥有5个以上基因相互作用的基因节点,其中FN1、PKN1、CD19、CDC5L这几个基因位点也是互相作用网络通路流经数据量最大的几个节点,推测这几个基因节点可能在原发性高血压发病过程中扮演重要的较色,可能是原发性高血压的关键节点基因。结论①利用全基因组重测序技术获得了全基因组水平上原发性高血压多种基因变异,在全基因组范围内寻找原发性高血压易感基因,并将其与现有公共数据库进行比对,获得了大量以前尚未报道的基因变异位点,并将数据上传到NCBI数据库,供其他研究者下载使用,为以后的研究提供了基础。②本研究将分析得到的变异基因信息通过GO功能注释和KEGG通路分析发现,主要参与到细胞磷酸化、细胞黏附作用以及免疫系统通路,显著表现为7条生物学通路,并且两种生物信息学分析结果关联性强,说明原发性高血压致病基因执行功能作用是多样化的,一种基因可以表达不同的产物,也可能不同的基因表达类似的产物执行同一种功能,相互之间是有关联的。③利用蛋白质互相作用网络进一步分析得到的变异基因互相的关系,并排除已经报道的与原发性高血压发病有关联的基因变异位点,发现尚未报道过的FN1、PKN1、CD19、CDC5L可能是原发性高血压发病过程中的关键节点基因,在后续的研究中可以在更大样本量的正常人群和原发性高血压患者中对其进行筛查,以评估上述发现的基因是否存在于我国原发性高血压患者中。