两个水稻参考基因组序列组装质量的评估和基于混合池进行全基因组测序的方法研究

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:fcunui_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
参考序列作为一种公有的资源给大家提供参考,因此必须是高质量的序列。随着全基因组鸟枪法(WGS)—新一代测序(NGS)等测序方法的发展,在最近几年已经产生了很多复杂高等植物的基因组序列,它们通常被认为是参考序列。然而,这些序列中没有一个在全基因组序列组装的水平被进行实验评估。水稻在植物中具有相对简单基因组,大约10年前已公布了它的用不同的测序方法得到的两个亚种的基因组序列。这提供了唯一一个平台,用于评估已公布的植物基因组序列的质量和作用。我们构建了一个93-11的高质量的BAC物理图谱,并得到了大量的BAC末端序列(BES)。通过BES比对以及93-11物理图谱和两个参考序列的三者之间的比较,我们发现,使用clone-by-clone方法得到的日本晴参考序列具有较高的质量,但仍含有少量的序列倒置和缺失。与此相反,使用的WGS途径中产生的93-11参考序列包含许多各种组装错误,例如倒位,重复,和易位,以及序列缺失。在93-11物理图谱为评估和改进已完成的两个日本晴和93-11参考序列提供了参考和宝贵的资源。  Clone-by-clone(CBC)和全基因组鸟枪法(Whole genome shotgun,WGS)测序是基因组测序最主要的两种策略。由于CBC策略具有很高的精确性,它已经成为全基因组测序的一个“黄金法则”,但是这种策略费时费力且成本高,使得它的应用受到很大限制。而WGS方法则随着下一代测序技术(Next-generation sequencing,NGS)的发展被越来越多的利用,但是这种策略得到的序列很难组装,特别是对大且复杂的基因组。我们开发了一种新的基于相交的混合池的方法来整合这两种策略。和以前的混合池的方法类似,我们把BAC克隆堆叠成一个立方体,然后构建BAC克隆混合池,利用下一代测序技术对每一个混合池进行测序,并组装这些序列得到序列重叠群。解析每个克隆的特征序列集合和k-mer集合,利用特征序列集合用来构建物理图谱,再结合k-mer集合分割克隆重叠群。最后所有的序列重叠群都被定位到物理图谱上,并连接位置相近的序列重叠群,再确定这些序列重叠群的方向。整个实施过程中的很多参数包括混合池构建策略,混合池维数,测序深度,混合池覆盖度以及文库覆盖度等都会影响到最终结果,并且这些参数还存在相互作用。我们利用已知的拟南芥基因组进行了大量模拟以找到最合适的参数和参数组合。根据模拟结果的参数,基于已经构建的籼稻品种93-11的物理图谱(Oryza sativa indica),挑取三条染色体上具有3倍覆盖度的BAC克隆进行了实验验证。利用该方法不仅能够构建物理图谱和对全基因组测序,还能同时将再者进行整合定位组装后的序列,最终得到较完整的全基因组序列。该方法整合了CBC和NGS的优点,避免了两者的缺点,适合用来对大而复杂的基因组构建高质量的参考基因组序列,相信在未来的能够得到广泛的应用。
其他文献
学位
无线通信技术的迅猛发展,对作为无线通信系统以及武器装备关键部件的天线提出了越来越高的要求。一方面,室内高速无线数据接入技术的兴起对超宽频带天线提出了广泛需求。同时,由
编解码技术是光码分多址(OCDMA)的核心技术。用户地址码的优良性能是OCDMA系统实用化的重要前提。基于相干光的相位编码OCDMA技术依靠光信号的相位变化,利用伪随机序列来编解
目的 了解沂南县幼儿教师中巨细胞病毒防治知识知晓水平,为幼儿教师中先天性巨细胞病毒感染防控提供理论依据.方法 采用分层整群抽样的方法,于2018年10月月对县区及乡镇12所
肺癌是当今世界上对人类健康与生命危害最大的恶性肿瘤,尤其是非小细胞肺癌(Non-small cell lung cancer,NSCLC),占肺癌发病率80%左右。临床治疗NSCLC常使用放射疗法与化学疗法。
学位
正交频分复用(OFDM,Orthogonal Frequency Division Multiplexing)技术是第四代移动通信的关键技术,具有极高的频谱效率和良好的抗多径干扰能力。然而由于无线信道的多径性和时变
学位
未成熟树突状细胞(immature dendritic cells,iDC)在机体外周与中枢免疫耐受维持中发挥重要作用,其以多种机制参与自身免疫耐受的形成。因此,iDC疫苗成为近年来研究抑制器官移植排
学位