论文部分内容阅读
随着人类基因组测序计划的完成,大量微阵列表达数据的积累,以及应运而生的生物信息学的发展给肿瘤分子发病机理的研究开阔了新的研究思路。生物信息学是一门由计算机技术、统计学、数学、遗传学、分子生物学、医学、信息学、生物物理和化学等结合的交叉学科。一般意义上,生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的一门学科,它通过综合利用生物学、计算机科学和信息技术来揭示大量而复杂的生物数据所赋有的生物学奥秘。它的研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面。通过对DNA序列的统计计算分析,更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,以揭示基因组信息结构的复杂性及遗传语言的根本规律。以生物芯片为研究基础,以序列比对、统计分析方法、可视化作图、生物聚类、通路分析及启动子预测等方法为手段,在分子水平进行数据挖掘、对疾病进行阐述。利用基因芯片技术和生物信息学方法系统分析肿瘤相关基因及调控机制,是当前功能基因组学的重要研究途径,可从整体的、基因组水平上阐明肿瘤细胞基因表达调控网络。最近,综合使用各种分析手段对芯片表达数据进行分析的统合分析方法(meta-analysis)成为研究者们的热点,这种分析方法不仅降低了错误发现率(false discovery rate,FDR),还克服了单个芯片数据或单个实验室数据存在的缺陷,从而更加全面地从整体上对疾病进行研究。
本研究选择同一芯片平台的三组肺癌患者的基因表达谱数据集:GSE3268、GSE7670和GSE10072为数据来源,是为了缩小因单一数据集样本差异造成的假阳性率,提高筛选基因的特异性;采用dCHIP(DNA-Chip Analyzer)芯片分析软件分别筛选三组数据集中的差异基因,经Excel软件交集,选择三组数据集中共有的差异基因;应用DAVID(database for annotation,visualization and integrated discovery)软件对差异基因进行初步功能聚类与通路分析,并通过共表达基因的筛选和实验验证,对上调差异基因进行深入分析,从中发现与肺癌发病相关的新的特异性基因,同时构建共表达基因与预测转录因子相互作用的网络图谱,为肺癌的分子发病机制、药物研发、诊断与治疗等深入研究提供有意义的探索和理论依据。
研究内容主要分为以下三个部分:
第一部分:肺癌组织基因表达谱的数据分析。选择数据集GSE3268中人肺鳞癌组织和癌旁正常组织,GSE7670与GSE10072中部分人肺腺癌组织和癌旁正常组织的配对芯片数据为研究材料,分别导入dCHIP软件筛选荧光表达值变化超过2倍比值的差异表达基因,将得到的三组差异基因经Excel软件交集,最后获得603个与肺癌相关的特异性基因,其中144个基因上调,459个基因下调。利用生物学功能聚类、KEGG通路分析、功能注释结合文献分析对差异基因进行初步分析。结果发现上调基因主要以MMP9,BIRC5和CDC2基因为核心聚集,已知MMP9与癌细胞的侵袭转移密切相关,而BIRC5和CDC2是调控细胞凋亡和细胞周期的重要基因。下调基因由于已研究的基因信息相对较少,并且基因功能较为分散,所以并无明显聚集,又因为上调基因在癌细胞中发挥重要的生物学功能,故本文主要针对上调基因进行深入分析。
本文利用GEO数据库中GDS1312(GSE3268)中MMP9,BIRC5和CDC2的邻近基因表达谱(Profile neighbors)与筛选出的上调基因交集,得到MMP9,BIRC5和CDC2基因在肺癌组织中的共表达差异基因(简称为共表达基因)。结合DAVID在线软件分析和文献挖掘,发现在肺癌组织中,与MMP9共表达的基因有15个,该组中多数基因具有信号传导功能,其中包括COLIA2、COL3A1、COL5A1等7个胶原蛋白基因,推测该组共表达基因在肺癌组织中具有促进癌细胞迁移和浸润的功能;与BIRC5共表达的基因有22个,与CDC2共表达的基因有35个,这两组共表达基因中部分基因参与细胞凋亡和细胞周期的调控过程,推测这两组共表达基因在肺癌组织中与BIRC5和CDC2一起参与细胞周期及细胞凋亡的调节过程。
第二部分:肺癌共表达基因转录调控分析和网络构建。基因表达调控是生物体内基因表达的调节控制机制,是细胞中基因表达的过程在时间、空间上处于有序状态,并对环境条件的变化作出适当反应的复杂过程,其中转录水平尤其是转录起始阶段的调控对基因表达起关键作用。本文应用TELiS、GATHER和TFME软件,对筛选的三组共表达基因进行转录因子及转录因子结合位点(Transcriptional factor binding site,TFBS)预测,观察各组共表达基因在转录水平是否受相同转录因子的调控。同时利用在线分子相互作用软件STRING、BiblioSphere Pathway Edition和pSTIING建立基于文献知识的基因转录相关或物理相关的网络图谱。预测结果发现MMP9组共表达基因转录起始位点上游600bp序列内具有转录因子SOX9、SOX5、PAX6、FOXA2、GATA3、FOXD3和EVI1的结合位点。BIRC5组共表达基因转录起始位点上游600bp序列内具有转录因子CEBPA、PAX6,NKRF,TFCP2和FOXA2的结合位点。CDC2组共表达基因转录起始位点上游600bp序列内具有转录因子FOXA2、PAX6、FOXI1、RFX1、SOX9、HNF1A和NFE2L2的结合位点。表明各组共表达基因在转录水平上可能受到相同转录因子的调控,其中部分基因有相互作用关系。
第三部分:差异表达基因KIAA0101的功能研究。为了论证以上推论方法的有效性和正确性,本部分内容以KIAA0101基因为代表进行实验验证。选择KIAA0101基因为研究对象是因为:1)数据挖掘发现KIAA0101基因的mRNA表达水平在肺癌组织中比癌旁正常组织中升高3~4倍,这与已发表的文献报导一致,但是其在肺癌中的作用机制尚不清楚;2)功能分析发现KIAA0101基因为上调核心基因BIRC5和CDC2的共表达基因,推测高表达的KIAA0101基因在肺癌病变过程中可能参与了细胞周期或细胞凋亡的调节过程。因此,本部分采用RNA干扰技术降低KIAA0101基因在肺癌细胞中的表达量,来研究KIAA0101基因对肺癌细胞的生长活性有无影响。
针对KIAA0101基因设计两条特异性RNA干扰片段siKa与siKb,体外化学合成两对互补DNA寡核苷酸链,经退火成双链,与siRNA载体pSIREN-RetroQ/U6两端的BamHI和EcoRI位点连接,DNA双链连接后形成中间由9个碱基序列间隔的反向互补序列,构建成能产生KIAA0101 shRNA的质粒。利用LipofectamineTM2000脂质体转染A549细胞,在U6启动子的作用下于细胞内转录KIAA0101-shRNA。同时设计合成阴性对照组EGFP-shRNA,与靶细胞中基因没有同源性。针对转染后不同时间点,采用荧光显微镜观察细胞形态学改变、四唑盐(MTT)比色法测定细胞活性、流式细胞仪AnnexinⅤ-FITC/PI双染色法检测细胞凋亡率、荧光定量PCR测定A549细胞内KIAA0101基因mRNA变化、Westernblot检测A549细胞内KIAA0101蛋白质表达。研究结果发现转染KIAA0101干扰质粒后细胞活性受到显著抑制(P<0.05),光镜下细胞皱缩,贴壁不牢固,部分细胞染色质聚集,呈现明显的凋亡形态。流式细胞仪检测KIAA0101干扰组72h细胞凋亡率分别为17.9%和29.9%,而空白对照组为7.3%,EGFP对照组为8.2%。荧光定量PCR结果显示KIAA0101干扰组细胞72h KIAA0101 mRNA表达量分别是未转染组的44%和27%,而EGFP对照组KIAA0101 mRNA表达量是未转染组的95%,与未转染细胞相比差异不显著。Western-blot检测显示siKa组和siKb组细胞较未转染组和siEGFP组KIAA0101蛋白表达水平下降。说明KIAA0101-shRNA可特异有效地干扰肺癌A549细胞内KIAA0101基因的表达,从而诱导癌细胞凋亡。该实验也证实了在肺癌组织中,KIAA0101基因作为BIRC5和CDC2的共表达基因,具有与BIRC5和CDC2相似的生物学功能。
综上所述,本课题应用生物信息学方法对肺癌相关的三组数据集进行了分析和研究,筛选出分别与MMP9、BIRC5和CDC2基因共表达的三组基因。结合功能分析、文献挖掘、转录因子预测及基因相互作用网络图谱的构建,推测MMP9组共表达基因具有促进肺癌细胞侵袭转移的生物学功能,而BIRC5和CDC2两组共表达基因具有调控肺癌细胞周期或抑制肺癌细胞凋亡的生物学功能。最后应用RNA干扰技术对差异表达基因KIAA0101的功能研究证实前期的推断具有可行性,提示我们可以采用同种方法,对新筛选的其它差异基因进行实验研究。