论文部分内容阅读
参考序列作为一种公有的资源给大家提供参考,因此必须是高质量的序列。随着全基因组鸟枪法(WGS)—新一代测序(NGS)等测序方法的发展,在最近几年已经产生了很多复杂高等植物的基因组序列,它们通常被认为是参考序列。然而,这些序列中没有一个在全基因组序列组装的水平被进行实验评估。水稻在植物中具有相对简单基因组,大约10年前已公布了它的用不同的测序方法得到的两个亚种的基因组序列。这提供了唯一一个平台,用于评估已公布的植物基因组序列的质量和作用。我们构建了一个93-11的高质量的BAC物理图谱,并得到了大量的BAC末端序列(BES)。通过BES比对以及93-11物理图谱和两个参考序列的三者之间的比较,我们发现,使用clone-by-clone方法得到的日本晴参考序列具有较高的质量,但仍含有少量的序列倒置和缺失。与此相反,使用的WGS途径中产生的93-11参考序列包含许多各种组装错误,例如倒位,重复,和易位,以及序列缺失。在93-11物理图谱为评估和改进已完成的两个日本晴和93-11参考序列提供了参考和宝贵的资源。 Clone-by-clone(CBC)和全基因组鸟枪法(Whole genome shotgun,WGS)测序是基因组测序最主要的两种策略。由于CBC策略具有很高的精确性,它已经成为全基因组测序的一个“黄金法则”,但是这种策略费时费力且成本高,使得它的应用受到很大限制。而WGS方法则随着下一代测序技术(Next-generation sequencing,NGS)的发展被越来越多的利用,但是这种策略得到的序列很难组装,特别是对大且复杂的基因组。我们开发了一种新的基于相交的混合池的方法来整合这两种策略。和以前的混合池的方法类似,我们把BAC克隆堆叠成一个立方体,然后构建BAC克隆混合池,利用下一代测序技术对每一个混合池进行测序,并组装这些序列得到序列重叠群。解析每个克隆的特征序列集合和k-mer集合,利用特征序列集合用来构建物理图谱,再结合k-mer集合分割克隆重叠群。最后所有的序列重叠群都被定位到物理图谱上,并连接位置相近的序列重叠群,再确定这些序列重叠群的方向。整个实施过程中的很多参数包括混合池构建策略,混合池维数,测序深度,混合池覆盖度以及文库覆盖度等都会影响到最终结果,并且这些参数还存在相互作用。我们利用已知的拟南芥基因组进行了大量模拟以找到最合适的参数和参数组合。根据模拟结果的参数,基于已经构建的籼稻品种93-11的物理图谱(Oryza sativa indica),挑取三条染色体上具有3倍覆盖度的BAC克隆进行了实验验证。利用该方法不仅能够构建物理图谱和对全基因组测序,还能同时将再者进行整合定位组装后的序列,最终得到较完整的全基因组序列。该方法整合了CBC和NGS的优点,避免了两者的缺点,适合用来对大而复杂的基因组构建高质量的参考基因组序列,相信在未来的能够得到广泛的应用。