论文部分内容阅读
基因芯片技术可以实现高通量的基因表达分析,随着基因芯片技术的发展,目前已经积累了海量的基因表达数据,如何对这些已有的数据进行更深层次的分析和挖掘,使得芯片数据从原本“产生假设”的工具逐步转变为“验证生物学假设”的信息库,是当前生物信息学研究的一项重要工作。将来自不同实验,具有相似研究目的的芯片数据作为一组对象进行二次分析研究,是实现这一转变的关键方法之一,即进行基因芯片整合分析,从而获得更具有普适意义的结果。
目前,有多种方法或策略可应用于芯片整合分析,其中一大类是应用统计学方法对具有相似研究目的的不同芯片实验结果进行荟萃分析(meta-analysis):另外一大类方法是专门针对芯片数据的特点设计的,首先通过一定数据转换的方法,将不同芯片实验的数据合并成一个表达矩阵(此类方法统称为基因芯片数据整合方法),再根据研究目的应用相应方法进行后续分析。研究表明,这两类方法在筛选特征基因方面都取得了较好的效果,而后者还适用于构建预报不同表型的分类模型。
利用基因表达谱对癌症进行分类、分型或分期研究具有客观、快速、简便和高特异性等优点,其中一项重要问题就是要解决数据集“高维度,小样本”的问题,它是能否建立有效分类模型的关键。本文第三章使用基因芯片数据整合方法,对具有相似研究目的的成人以及儿童急性髓性白血病芯片实验数据进行整合,以扩大样本容量降低维度与样本量的比值。利用实际表达芯片数据,发现中位值整合方法(MRS)是分析多源数据的有效方法,整合后的数据可以为数量较少的儿童样本构建具有较高准确率的分类预报模型。论文还通过有效聚类说明,3个独立实验的白血病亚型间的信号差异强于芯片系统问信号的差异。
癌症病患存活年限的长短和存活质量,是由多种因素决定的,除了进行的各种治疗外,据临床观察,还有多种因素影响着癌症的预后。最近,科研工作者开始利用基因芯片数据,研究特异组织癌细胞的预后特性,但关于普遍的肿瘤预后的分子生物学机制仍待研究。本文第四章在现有研究成果基础之上,应用荟萃分析(meta-analysis)方法研究7组不同表型癌症间的共差异表达基因,发现51个基因在不同癌症病人的恶性治疗结果组中都显示了一致地差异表达。