论文部分内容阅读
宏基因组的生物学分析大都建立在已知参考基因组序列基础上,由于这些参考基因组的数目只占了整体非常小的一部分,因此获取未知细菌的基因组序列对了解整个微生物群体、功能都至关重要。但是重复序列、测序深度高度不均一以及宏基因组样品的复杂度,都会使宏基因组拼接产生大量碎片化的片段,并且这些片段很难拼装成完整的基因组序列。为此,研究者开发出了多种计算和实验方法以期解决这一问题。序列归类的方法利用序列组成或者多个样品的共表达模式对拼接后的序列进行聚类以得到细菌基因组的完整序列,但是这一方法的问题在于序列组成的分辨率不高,共表达的方法对于样品数目有较高要求。虽然单细胞测序技术一次可以得到单个细胞,但是这一技术有较高的失败率和污染率以及非常严重的扩增偏倚。最近,TrueSeq synthetic long read技术通过产生更长的测序序列,大大简化了基因组拼接,但是这项技术操作复杂并且样品中高丰度的细菌会产生大量冗余的序列。 为了高效的获取未知细菌基因组序列,本研究中我们开发了新的实验和计算 方法-metaSort。此方法利用流式细胞仪对宏基因组样品中的细菌按照细胞大小进行排序并分选出指定区间内指定数目的细菌子集。随后,对每个细菌子集进行扩增测序。为了利用原始的宏基因组和分选的细菌子集信息,我们提出了两个新的算法模型:BAF和MGA。这两个方法可以利用子集中富集的细菌部分基因组序列,在原始的宏基因组中回收目标基因组序列,并对这些序列进行拼接延长和寻找变异。 我们首先构建了包含100个细菌基因组的模拟数据集对MGA算法进行测试,结果显示MGA可以基于部分序列高效回收目标基因组序列并且污染率极低,MGA对回收后的基因组序列进行拼接使序列长度得到了显著延长。随后,我们利用人类口腔宏基因组样品对细胞分选方法有效性进行了测试。实验中,我们利用metaSort方法分选了四个细胞子集,数目分别为:5.9×104,2.8×104,3.7×104和1.0×105。物种谱分析表明这些细胞子集分别捕获了不同种类的细菌,其中还包括在原始宏基因组样品中丰度较低的细菌,这些表明metaSort提供了一种灵活可控的方法来降低宏基因组复杂度。我们还利用了肠道宏基因组样品检验我们的计算方法。MGA对一个细胞子集进行拼接得到12个细菌基因组,对这些基因组进行变异检测,发现4个基因组存在菌株水平的变异,并且利用我们提出的bubbledistance的方法可以有效的反映这些变异的多样性。 最后,我们将metaSort方法应用到海带表面共生微生物的研究中,流式细胞仪成功分选出三个细胞子集,数量分别为:2.4×104,3.0×104和7.4×104。对每个子集中的细菌基因组进行拼接,获得75个高质量的细菌基因组序列,通过计算方法和PacBio测序验证都表明这些拼接的基因组具有很高的准确性和完整度。通过这些拼接得到的基因组信息,我们首次大规模的对海带共生微生物的基因功能进行了研究。 结果显示,这些基因组含有大量共生相关的基因,尤其是碳水化合物活性酶。所有结果都表明本研究建立的metaSort方法在获取新环境下微生物基因组的优势。 鉴于以上结果,我们认为metaSort方法提供了一种基于降低物种复杂度策略的宏基因组拼接方法,这一方法将极大提高我们获取新环境微生物基因组的能力。