基于多组学数据对长链非编码RNAs的功能注释

来源 :宁波大学 | 被引量 : 0次 | 上传用户:a41808829739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的随着测序技术的发展,在各种哺乳动物中发现越来越多的长链非编码RNA(long-noncoding RNA,lncRNA),但是大部分lncRNA的功能未知。鉴于lncRNA在众多生物过程中的重要调节作用,对lncRNA的功能研究已成为生物学家和生物信息学家研究的热点,其中基于计算机的功能预测是目前研究lncRNA功能的主要方法之一。目前能够应用于lncRNA功能预测的高通量数据相对较少,大部分研究者主要基于表达谱构建共表达网络对lncRNA进行功能预测,但由于lncRNAs表达较低,如果RNA-seq的测序深度不够,大部分lncRNAs的表达将不能够被检测,因此基于共表达网络的方法对lncRNAs的功能预测具有局限性。本研究引入表观遗传修饰和转录因子的ChIP-seq数据,基于多组学数据对lncRNA进行功能注释,探索和比较不同数据源进行lncRNAs功能预测的可行性和准确性。  方法本研究基于共表达网络、表观遗传修饰和转录因子数据,运用了建立在统计学习理论基础上的支持向量机算法,结合重抽样和集成算法,对多数据源构造训练数据集,经过特征提取、特征选择、模型训练、模型评价、lncRNA功能预测、结果集成等流程,完成对lncRNA的功能预测。SVM算法基于LIBSVM软件包,数据预处理等相关实现基于Perl、R语言软件。  结果基于共表达网络、表观遗传修饰和转录因子数据的SVM在测试集中的平均AUC值分别为0.662、0.638、0.609,在几种数据源中,共表达网络数据相较于表观遗传数据、转录因子数据在所构造的预测模型性能上最好,而表观遗传数据、转录因子数据最终得到了相对更多的lncRNA注释条目。三种数据源分别预测得到有功能注释的lncRNA分别为32、1441、6637个。结果集成后最终得到7036个非编码基因的预测结果,平均每个非编码基因预测得到GO功能注释约203个。  结论集成欠抽样的SVM算法从理论上来讲,具有避免类不平衡问题、提升预测模型性能、减少信息损失、降低运算时间成本的优势。多组学数据根据不同生物分子的性质和特点,对不同GO功能的预测中提供的信息、起到的作用也不尽相同。因为生物系统的复杂性,基因功能涉及到的生物机制繁多,单个数据源往往无法完全提供基因功能相关的信息,而多数据源的整合可以有效解决此问题,基于多组学数据进行lncRNA功能预测是一个有效思路,机器学习方法的运用也为研究提供了有效的工具。除了表观遗传数据、转录因子数据,或许还会有更多的数据被整合运用到lncRNA功能预测领域。
其他文献
蚕吃叶而吐丝,蜂采花而酿蜜,牛吃草而产乳汁,海纳百川而烟波浩淼壮阔无边.自然之理昭示我们,吸纳是创造的基础,吸纳是创造的前提;创造是吸纳之花,创造是吸纳之果.
了解抗变形链球菌和远缘链球菌IgY的防龋效果,研究结果为在学生中开展被动免疫防龋工作提供理论依据.1.人群现场试验结果显示,抗变形链球菌和远缘链球菌IgY对变形链球菌生长
从四川省二郎山观冰站2002-2008年逐年1月份资料中选取12次覆冰过程和8次无覆冰过程,同时考虑2008年和2005年两个典型覆冰年共有覆冰日期(1月11~19日),利用NCEP/NCAR再分析格点
分析了图书馆开架借阅管理模式下读者容易产生的几种违规心理,提出了一系列消除读者违规心理的有效措施.
农药咪鲜安、杀螟硫磷、异丙甲草胺和腐霉利广泛用于农业生产中,有资料显示它们能够产生类似环境雌激素的危害,但对其环境雌激素效应的检测较少。本研究采用体内试验(大鼠子宫
在我们漫长的小白领生涯中,不会撒谎就像不能熟练掌握office软件一样可怕。比如我曾在世界杯期间连续熬夜,终于有一天早上扛不住了,打电话给老板:"我大舅去世了,所以要请一天假
目的探讨PCOS的危险因素和PCOS患者内分泌的变化及相关因素.研究对象和方法病例为2002年9月至2003年11月在北京医科大学第三医院妇科内分泌门诊就诊的163例PCOS患者,近三个月
目的综合评价苏云金杆菌(Bti)乳剂杀灭传疟媒介嗜人按蚊和中华按蚊幼虫的效果,为将来应用于大规模现场防制提供科学依据。 方法(1)采用实验室生物测定方法,以实验室驯养及野
为了探讨胃癌标志物在胃癌发生、发展及在预后中可能的生物学作用,对中国高发肿瘤的防治实践提供依据.方法:应用双相电泳和质谱技术筛选胃癌表达蛋白质;构建高效表达Prohibit
目的(1)建立检测恶性疟原虫Pfcrt基因K76T及Pfmdr1基因N86Y和D1246Y的点突变的方法;(2)了解我国恶性疟原虫分离株Pfcrt基因K76T及Pfmdr1基因N86Y和D1246Y的点突变特征及发生率