论文部分内容阅读
TreeFam同源基因数据库是关于基因家族进化的数据库。它致力于发展成为一个经过人工校正,准确而又翔实的资源,提供所有已知动物基因家族的进化历程以及可靠的直系同源与旁系同源信息。在开发TreeFam数据库的过程中,我们设计了四个新颖的算法以提高构建进化树的准确性及辅助数据库建设。第一个算法是约束邻接法。给定一个特定子树的拓扑,这个算法可以高效的重构整个进化树而不改变给定子树的拓扑结构;这样人工校正结果可以得以保留。第二个是叶节点重排算法。在画树时,这个算法保证叶节点以接近指定的顺序在平面排列,从而使得相似的树画在纸面上有着相似的视觉效果。第三个算法是推断基因倍增/缺失算法。在这一部分中,我们把前人的推断算法纳入更加一般的理论框架,并将其推广于物种树为多分岔的情形。基因倍增/缺失推断算法的概率形式也在这一章得到讨论。第四个算法是树合并算法,它结合多棵从同一序列集构造的基因树,通过减少推断出的倍增/缺失事件和选择较高的自展支持而构建一棵最优树从而超越所有备选树。在文章结尾基于真实数据的评测表明树合并算法可以显著提高建树的准确性;而这一事实也说明:尽管简约法与极大似然法一般而言更加准确,它们仍不可完全替代距离法。各种方法的相互补充是准确建树的关键。