跳过主要内容gydF4y2Ba

DTLO模型中的最大分析和解gydF4y2Ba

摘要gydF4y2Ba

背景gydF4y2Ba

微生物演化的分析经常使用和解方法。然而,标准复制转移损失(DTL)模型不考虑物种树往往没有完全采样的事实,因此,从对和解的角度来看,基因家族可以从外部进入物种树。此外,在基因组内,通常重新排列基因,导致它们移动到新的同期区域。gydF4y2Ba

结果gydF4y2Ba

我们将DTL模型扩展到占Microbes演进中通常出现的两个事件:gydF4y2Ba起源gydF4y2Ba来自样本物种树外的基因gydF4y2Ba重排gydF4y2Ba基因同位区。在这个新的DTLOR模型中,我们描述了一个最大简约协调的有效算法,然后展示了如何将它扩展到非二叉基因树,以处理基因树拓扑的不确定性。最后,我们描述了将我们的算法集成到现有xenoGI工具中重建密切相关细菌基因组岛历史的初步实验结果。gydF4y2Ba

结论gydF4y2Ba

DTLO模型的和解可以对DTL模型目前不可能的微生物的演变提供新的见解。gydF4y2Ba

背景gydF4y2Ba

微生物占据了广泛的生态利基[gydF4y2Ba1gydF4y2Ba].了解特定物种是如何占据它们的生态位的,需要我们重建它们的基因组是如何随着时间进化的。gydF4y2Ba

在具有已知基因和物种树的密切相关的微生物的思科中,推断遗传史可以通过称为呼叫的过程来完成gydF4y2Ba和解gydF4y2Ba.这一过程将基因树映射到物种树,在这样做的过程中,意味着解释两棵树之间不一致的遗传事件。DTL模型考虑重复、水平基因转移和损失事件,而有些模型考虑这些事件的子集(例如,只考虑重复和损失)或不同类型的事件(例如。不完整的谱系分类)。gydF4y2Ba

虽然DTL模型适用于微生物中的进化,但它只允许在属于物种树的物种之间的水平转移。在分析微生物的演化中,尤其是物种树没有完全采样。因此,从执行和解分析的角度来看,基因家族可以通过从外部转移来有效地进入给定的物种树[gydF4y2Ba2gydF4y2Ba,gydF4y2Ba3.gydF4y2Ba].gydF4y2Ba

在本文中,我们描述了DTLOR模型,该模型通过扩展DTL模型来解决这个问题,允许一个基因家族的部分或全部进化发生在给定的物种树之外,并从外部发生转移事件。为了方便识别此类入口事件,模型还会跟踪gydF4y2Ba同时性地区gydF4y2Ba在物种树中进化的每一个基因。如果两个基因在它们周围相对较大的窗口内共享大量核心基因,则称它们在同一同向区域;其次,在它们周围较小的窗口内,它们在所有基因中共享一定数量的相似性[gydF4y2Ba2gydF4y2Ba].因此,除了复制、转移和丢失事件外,DTLOR模型还添加了其他事件gydF4y2Ba起源gydF4y2Ba表明基因从物种树以外转移到基因gydF4y2Ba重排gydF4y2Ba占基因组基因的同步区域变化的事件。gydF4y2Ba

在DTL模型中,调和通常使用最大简约公式。正成本与每种类型的事件相关,目标是找到一个调和,使发生的事件的总成本最小化。开发了DTL模型中最大简约协调(MPRs)的有效算法[gydF4y2Ba4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba,gydF4y2Ba6gydF4y2Ba]而且多个软件工具实现了这些算法[gydF4y2Ba7gydF4y2Ba,gydF4y2Ba8gydF4y2Ba,gydF4y2Ba9gydF4y2Ba,gydF4y2Ba10.gydF4y2Ba].gydF4y2Ba

在早期的相关工作中,Delabre等人研究了重复-损失模型中同时信息的调和问题;该研究未考虑水平转移事件[gydF4y2Ba11.gydF4y2Ba].Szöllősi等[gydF4y2Ba3.gydF4y2Ba]提出了一个被称为“死亡转移”的事件,以解释发生在物种树之外的基因进化。gydF4y2Ba10.gydF4y2Ba]描述了现有DTL最大解析协调算法的扩展,以将大多数解析的对帐与此附加事件计算。我们的工作与此前的工作有两种重要的方式不同。首先,虽然“从死亡转移”允许基因谱系多次将基因谱系从并返回到采样物种树中,但DTLO模型仅允许在物种树包含与密切相关的物种的假设下从外部转移,因此,从物种树上转移并被认为是相对罕见的。其次,DTLO模型捕获重新排列事件,这些事件不会与之前模型中的DTL事件一起考虑。重建重新排列事件在鉴定细菌中的基因组岛时尤为重要[gydF4y2Ba2gydF4y2Ba].gydF4y2Ba

总之,在本文中,我们扩展了DTL模型以允许原点(O)和重新排列(R)事件。我们提供了一种精确的多项式算法,用于DTLO模型中的最大分析协调。由于基因树通常是非二进制因其序列数据的信号而非二进制,因此我们展示了如何在非二进制基因树的固定参​​数多项式时间中找到最大的分析和解,其中参数是节点的最大分支因子.最后,我们描述了Dtlor MPR算法集成到Xenogi工具中的初步结果[gydF4y2Ba2gydF4y2Ba这可能会为微生物进化提供新的见解。gydF4y2Ba

定义gydF4y2Ba

DTLOR和解问题的一个实例包括无日期的有根物种和基因树,gydF4y2Ba年代gydF4y2Ba和gydF4y2BaGgydF4y2Ba分别;与每个叶顶点(现存基因)相关联的正整数共线区域数gydF4y2BaGgydF4y2Ba;和叶子的映射gydF4y2BaGgydF4y2Ba到了叶子gydF4y2Ba年代gydF4y2Ba.我们假设两棵树都是二元的,但是考虑到在Sect中基因树可能是非二元的情况。gydF4y2Ba4gydF4y2Ba.基因树的一些叶子可能在同一同线区域,而另一些叶子可能在独特的同线区域。DTLOR模型包括标准的DTL事件(复制、传输和丢失;详情如下)[gydF4y2Ba4gydF4y2Ba和另外两个被调用的事件gydF4y2Ba起源gydF4y2Ba和gydF4y2Ba重排gydF4y2Ba.这五种事件类型中的每一种都有一个相关的正成本。gydF4y2Ba

同序区域数是基因树的叶的同序区域数集的一个正整数gydF4y2Ba实际的同期区域gydF4y2Ba)或特色菜gydF4y2Ba未知syntenic地区gydF4y2Ba象征gydF4y2Ba\ \ (*)gydF4y2Ba.当基因顶点标记时gydF4y2Ba\ \ (*)gydF4y2Ba,假设顶点在物种树之外发展。当将基因顶点分配实际的同时性区域但其父母具有未知的同期区域时,这意味着该基因通过从外部转移来进入物种树,诱导原点事件。重新排列表示在物种树内的进化过程中发生的同步区域的变化。gydF4y2Ba

synsynic region编号规则如下:gydF4y2Ba

  1. 1。gydF4y2Ba

    如果一个顶点gydF4y2BaugydF4y2Ba标签是gydF4y2Ba\ \ (*)gydF4y2Ba和gydF4y2BavgydF4y2Ba是一个孩子gydF4y2BaugydF4y2Ba, 然后gydF4y2BavgydF4y2Ba可以用任何一种标记gydF4y2Ba\ \ (*)gydF4y2Ba或者一个实际的同序区域号。gydF4y2Ba

  2. 2.gydF4y2Ba

    如果一个顶点gydF4y2BaugydF4y2Ba用实际的同期区域编号标记,然后其子子必须用实际的同期区域编号标记。注意,这意味着任何用实际的同期区域编号标记的任何顶点都具有其所有后代也用实际的同期区域编号标记的属性。gydF4y2Ba

约束1确保基因可以源于物种树之外,而约束2确保一旦在物种树中发现基因,它就继续在树内发展。gydF4y2Ba

该模型中的DTL事件与DTL模型中的DTL事件类似。O和R事件的诱导方式如下:gydF4y2Ba

  1. 1。gydF4y2Ba

    如果一个顶点gydF4y2BaugydF4y2Ba标签是gydF4y2Ba\ \ (*)gydF4y2Ba和一个孩子gydF4y2BavgydF4y2Ba用实际的共线区域号标记,然后是顶点gydF4y2BavgydF4y2Ba诱导o事件。gydF4y2Ba

  2. 2.gydF4y2Ba

    如果一个顶点gydF4y2BaugydF4y2Ba和它的孩子gydF4y2BavgydF4y2Ba有实际同向区域数,而这两个同向区域数不同,则在两者之间的边缘诱发了一个R事件gydF4y2BaugydF4y2Ba和gydF4y2BavgydF4y2Ba.gydF4y2Ba

DTLOR最大简约协调问题(DTLOR MPR)的目标是将基因树的顶点和边映射到物种树上,并与基因树的每个内部顶点确定一个共线区域数,使诱发事件的总代价最小。注意,这个模型隐含地假设重复是串联或近端重复,因此重复事件本身并不意味着同序区域的变化。由复制和重排事件隐式地模拟在不同共线区域产生副本的复制。可以对模型进行扩展,以允许其他类型的复制事件。gydF4y2Ba

符号gydF4y2Ba

让gydF4y2Ba年代gydF4y2Ba和gydF4y2BaGgydF4y2Ba分别表示一对未注明日期的物种和基因树。在本节和下一节中,我们假设gydF4y2Ba年代gydF4y2Ba和gydF4y2BaGgydF4y2Ba是二进制的。昆虫。gydF4y2Ba4gydF4y2Ba我们扩展的结果为非二进制树。gydF4y2Ba

对于一个树gydF4y2BaTgydF4y2Ba,让根(gydF4y2BaTgydF4y2Ba)是根的根源gydF4y2Ba\ (\ hbox {Le} (T) \)gydF4y2Ba是叶子或gydF4y2Ba提示gydF4y2Ba.对于非根顶点gydF4y2BavgydF4y2Ba在树上,gydF4y2BapgydF4y2Ba(gydF4y2BavgydF4y2Ba)是父gydF4y2BavgydF4y2Ba.对于非叶顶点gydF4y2BavgydF4y2Ba,gydF4y2Ba\ (v_1 \)gydF4y2Ba和gydF4y2Ba\ (v_2 \)gydF4y2Ba表示它的两个孩子。我们假设每棵树gydF4y2BaTgydF4y2Ba有一个额外的gydF4y2Ba处理gydF4y2Ba边缘,即边缘gydF4y2Ba\((u,\ hbox {root}(t))\)gydF4y2Ba.的处理gydF4y2Ba年代gydF4y2Ba表示gydF4y2Ba\(e ^ s \)gydF4y2Ba和手柄gydF4y2BaGgydF4y2Ba表示gydF4y2Ba\ (e ^ G \)gydF4y2Ba.对于顶点gydF4y2BavgydF4y2Ba的gydF4y2BaTgydF4y2Ba,让我们gydF4y2BaTgydF4y2Ba(gydF4y2BavgydF4y2Ba的子树gydF4y2BaTgydF4y2Ba扎根在gydF4y2BavgydF4y2Ba,包括它自己的手柄边缘gydF4y2Ba\ (e v ^ \)gydF4y2Ba从gydF4y2BapgydF4y2Ba(gydF4y2BavgydF4y2Ba)gydF4y2BavgydF4y2Ba.树的边缘gydF4y2BaTgydF4y2Ba据说是一个gydF4y2Ba叶边gydF4y2Ba如果它的末端是一个叶子,就叫做gydF4y2Ba内部边缘gydF4y2Ba否则。gydF4y2Ba

dlor MPR问题gydF4y2Ba

DTLOR-MPR问题的一个实例是一个10元组gydF4y2Ba\ ((S G L \φ,\伽马\ mathbf {D} \ mathbf {T} \ mathbf {L} \ mathbf {O} \ mathbf {R}) \)gydF4y2Ba地点:gydF4y2Ba

  • \(s = (v_s, e_s)\)gydF4y2Ba和gydF4y2Ba\(g = (v_g, e_g)\)gydF4y2Ba分别是二元物种和基因树木;gydF4y2Ba

  • lgydF4y2Ba是由计数数表示的同序区域的有限集;gydF4y2Ba

  • \(\ phi:\ hbox {Le}(g)\ lightarrow \ hbox {Le}(s)\)gydF4y2Ba是将每个叶子关联起来的映射吗gydF4y2BaGgydF4y2Ba与叶gydF4y2Ba年代gydF4y2Ba;gydF4y2Ba

  • \(gamma: \hbox {Le}(G) \right tarrow L\)gydF4y2Ba是一个针对每个叶子的形状映射gydF4y2BaGgydF4y2Ba与一个同期区域;gydF4y2Ba

  • 参数gydF4y2BaDgydF4y2Ba,gydF4y2BaTgydF4y2Ba,gydF4y2BalgydF4y2Ba,gydF4y2BaOgydF4y2Ba,gydF4y2BaRgydF4y2Ba是在下面详细描述的重复,转移,损失,起源和重新排列事件的正成本。gydF4y2Ba

一个gydF4y2Ba和解gydF4y2Ba在DTLOR模型中包含一对映射gydF4y2Ba\((\ phi,\ gamma)\)gydF4y2Ba扩展映射gydF4y2Ba\(\披\)gydF4y2Ba和gydF4y2Ba\γ(\ \)gydF4y2Ba.具体来说,gydF4y2Ba\(Phi: V(G) \right tarrow V(S) \cup \{N\}\)gydF4y2Ba映射顶点gydF4y2BaGgydF4y2Ba到顶点gydF4y2Ba年代gydF4y2Ba或特殊的gydF4y2BaNgydF4y2Ba代表物种不在物种树中的位置gydF4y2Ba年代gydF4y2Ba.约束对gydF4y2Ba\(\ phi \)gydF4y2Ba如下:gydF4y2Ba

  1. 1。gydF4y2Ba

    \(g) = \(g)gydF4y2Ba对于每一个叶子gydF4y2BaggydF4y2Ba的gydF4y2BaGgydF4y2Ba;gydF4y2Ba

  2. 2.gydF4y2Ba

    如果gydF4y2BaggydF4y2Ba是一个内在的顶点gydF4y2BaGgydF4y2Ba和gydF4y2Ba\(\ phi(g)\ ne n \)gydF4y2Ba然后他们的孩子gydF4y2BaggydF4y2Ba,表示gydF4y2Ba\ (g_1里面\)gydF4y2Ba和gydF4y2Ba\(G_2 \)gydF4y2Ba,有属性gydF4y2Ba

  1. (一)gydF4y2Ba

    \(\ phi(g_1)\ ne n \)gydF4y2Ba和gydF4y2Ba\(Phi (g_2) \ne N\)gydF4y2Ba;gydF4y2Ba

  2. (b)gydF4y2Ba

    既不gydF4y2Ba\(\ phi(g_1)\)gydF4y2Ba也不gydF4y2Ba\φ(g_2) (\ \)gydF4y2Ba是一个祖先gydF4y2Ba\(\ phi(g)\)gydF4y2Ba;和gydF4y2Ba

  3. (c)gydF4y2Ba

    至少有一个gydF4y2Ba\(\ phi(g_1)\)gydF4y2Ba或者gydF4y2Ba\φ(g_2) (\ \)gydF4y2Ba等于还是的后代gydF4y2Ba\(\ phi(g)\)gydF4y2Ba.gydF4y2Ba

约束1确保映射gydF4y2Ba\(\ phi \)gydF4y2Ba是否与叶映射一致gydF4y2Ba\(\披\)gydF4y2Ba而约束2保证了对于任何一个基因顶点映射到一个物种顶点,(a)的子顶点gydF4y2BaggydF4y2Ba也映射到种顶点,(B)孩子没有被映射到顶点品种是最多只有一个孩子的祖先给其父,以及(c)可以转移到不同的分支。gydF4y2Ba

注意,我们假设树木未被规定,因此可能是满足这些约束的映射,仍然是毫无疑问的,因为没有与集合一致的物种树的内部节点的排序所缺陷的时间不一致重复,转移和损失事件。但MPR中的时间 - 不能在多项式时间中检测到[gydF4y2Ba12.gydF4y2Ba,gydF4y2Ba13.gydF4y2Ba].此外,找到保证时间一致的mpr的问题是NP-hard [gydF4y2Ba14.gydF4y2Ba].gydF4y2Ba

还请注意,与DTL模型不同的是,DTL模型要求将每个基因顶点映射到物种树中的某个顶点,而dlor模型允许将基因顶点映射到gydF4y2BaNgydF4y2Ba位于采样物种树之外的位置。gydF4y2Ba

映射gydF4y2Ba\(\ phi \)gydF4y2Ba诱发四种类型的事件。对于内部基因树顶点gydF4y2BaggydF4y2Ba,有孩子gydF4y2Ba\ (g_1里面\)gydF4y2Ba和gydF4y2Ba\(G_2 \)gydF4y2Ba, 和gydF4y2Ba\(\ phi(g)\ ne n \)gydF4y2Ba,由此引起的事件gydF4y2Ba\(\ phi \)gydF4y2Ba如下:gydF4y2Ba

  1. 形态的事件:gydF4y2Ba

    顶点gydF4y2BaggydF4y2Ba诱导一个物种形成事件,如果gydF4y2Ba\(\ phi(g_1)\)gydF4y2Ba和gydF4y2Ba\φ(g_2) (\ \)gydF4y2Ba在左子树中,另一个是在右边的子树中gydF4y2Ba\(\ phi(g)\)gydF4y2Ba.gydF4y2Ba

  2. 重复事件:gydF4y2Ba

    顶点gydF4y2BaggydF4y2Ba诱发重复事件,如果每个gydF4y2Ba\(\ phi(g_1)\)gydF4y2Ba和gydF4y2Ba\φ(g_2) (\ \)gydF4y2Ba是等于或后代的gydF4y2Ba\(\ phi(g)\)gydF4y2Ba但不满足物种形成事件的条件。gydF4y2Ba

  3. 转移事件:gydF4y2Ba

    顶点gydF4y2BaggydF4y2Ba如果恰好突出一个转移事件gydF4y2Ba\(\ phi(g_1)\)gydF4y2Ba和gydF4y2Ba\φ(g_2) (\ \)gydF4y2Ba是等于或后代的gydF4y2Ba\(\ phi(g)\)gydF4y2Ba而另一个是祖先也不是一个后代gydF4y2Ba\(\ phi(g)\)gydF4y2Ba.gydF4y2Ba

  4. 损失事件:gydF4y2Ba

    每个非根顶点gydF4y2BaggydF4y2Ba(包括叶顶点)可能导致零或多个损失事件,如下所示gydF4y2Ba\(p(g)) \ne N\)gydF4y2Ba是祖传的gydF4y2Ba\(\ phi(g)\)gydF4y2Ba,然后是每个物种的顶点gydF4y2Ba年代gydF4y2Ba在路上gydF4y2Ba\φ(p (g)) (\ \)gydF4y2Ba来gydF4y2Ba\(\ phi(g)\)gydF4y2Ba诱导丢失事件,除了gydF4y2Ba\(\ phi(g)\)gydF4y2Ba,也不gydF4y2Ba\φ(p (g)) (\ \)gydF4y2Ba如果gydF4y2BapgydF4y2Ba(gydF4y2BaggydF4y2Ba)诱导物种事件。对于顶点引起的每个损失gydF4y2Ba年代gydF4y2Ba在路上gydF4y2Ba\φ(p (g)) (\ \)gydF4y2Ba来gydF4y2Ba\(\ phi(g)\)gydF4y2Ba,我们这么说gydF4y2BaggydF4y2Ba通过gydF4y2Ba通过gydF4y2Ba年代gydF4y2Ba.gydF4y2Ba

如果gydF4y2Ba\(\ phi(g)= n \)gydF4y2Ba然后gydF4y2BaggydF4y2Ba诱导这四种类型的事件中没有任何一部分。gydF4y2Ba

映射gydF4y2Ba\(\ gamma:v(g)\ lightarrow l \ cup \ {* \} \)gydF4y2Ba每个顶点映射gydF4y2BaggydF4y2Ba在gydF4y2BaGgydF4y2Ba在某种程度上gydF4y2BalgydF4y2Ba或特殊的同期区域代表gydF4y2Ba\ \ (*)gydF4y2Ba表明它处于未知的同期区域,因为它发生在物种树的外部。约束对gydF4y2Ba\γ(\ \)gydF4y2Ba它与gydF4y2Ba\(\ phi \)gydF4y2Ba如下:gydF4y2Ba

  1. 1。gydF4y2Ba

    \(g) = (g)gydF4y2Ba对于每一个叶子gydF4y2BaggydF4y2Ba的gydF4y2BaGgydF4y2Ba;gydF4y2Ba

  2. 2.gydF4y2Ba

    \(\ phi(g)= n \)gydF4y2Ba当且仅当gydF4y2Ba\(Gamma (g) = *)gydF4y2Ba;gydF4y2Ba

  3. 3.gydF4y2Ba

    如果gydF4y2Ba\(\伽玛(克)\ NE * \)gydF4y2Ba和gydF4y2BaggydF4y2Ba有孩子gydF4y2Ba\ (g_1里面\)gydF4y2Ba和gydF4y2Ba\(G_2 \)gydF4y2Ba然后gydF4y2Ba\(Gamma (g_1) \ne *\)gydF4y2Ba和gydF4y2Ba\(\ gamma(g_2)\ ne * \)gydF4y2Ba.gydF4y2Ba

约束1确保映射gydF4y2Ba\γ(\ \)gydF4y2Ba是否与叶映射一致gydF4y2Ba\γ(\ \)gydF4y2Ba,约束2确保如果一个基因顶点被映射到物种树之外,那么它的共线区域还没有建立,约束3确保一旦一个基因节点的共线区域建立了,它的子节点的共线区域也建立了。映射gydF4y2Ba\γ(\ \)gydF4y2Ba诱导事件如下:gydF4y2Ba

  1. 起源事件:gydF4y2Ba

    一个非根顶点gydF4y2BaggydF4y2Ba诱导原点事件如果gydF4y2Ba\(Gamma (p(g))) = *\)gydF4y2Ba和gydF4y2Ba\(\伽玛(克)\ NE * \)gydF4y2Ba.根顶点gydF4y2Ba\ (\ hbox{根}(G) \)gydF4y2Ba诱导原点事件如果gydF4y2Ba\(Gamma (hbox {root}(G)) \ne *\)gydF4y2Ba.gydF4y2Ba

  2. 重新安排事件:gydF4y2Ba

    一个非根顶点gydF4y2BaggydF4y2Ba如果诱导重新安排事件gydF4y2Ba\(\伽玛(克)\ NE * \)gydF4y2Ba,gydF4y2Ba\(Gamma (p(g)) \ne *\)gydF4y2Ba, 和gydF4y2Ba\(\ gamma(p(g))\ ne \ gamma(g)\)gydF4y2Ba.gydF4y2Ba

对帐成本的定义是重复、转移、损失、起源和重排事件数量的总和,按事件成本的比例计算gydF4y2BaDgydF4y2Ba,gydF4y2BaTgydF4y2Ba,gydF4y2BalgydF4y2Ba,gydF4y2BaOgydF4y2Ba, 和gydF4y2BaRgydF4y2Ba,分别。物种形成事件的隐含成本为零,因为当携带该基因的物种发生变异时,该基因也会发生变异。gydF4y2Ba

方法gydF4y2Ba

当一个基因顶点gydF4y2BaggydF4y2Ba诱导原点事件,子树中的所有基因gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)扎根于gydF4y2BaggydF4y2Ba必须具有实际的同期区域(通过规则3在定义中gydF4y2Ba\γ(\ \)gydF4y2Ba)和该子树中的基因被映射到物种中gydF4y2Ba年代gydF4y2Ba(根据定义中的第二条gydF4y2Ba\γ(\ \)gydF4y2Ba),也就是说,gydF4y2Ba\ (V_S \φ(g) \ \)gydF4y2Ba和gydF4y2Ba\ \(γ在L (g) \ \)gydF4y2Ba对所有gydF4y2Ba\ (g的g (g) \ \)gydF4y2Ba.的映射gydF4y2Ba\(\ phi \)gydF4y2Ba和gydF4y2Ba\γ(\ \)gydF4y2Ba只与约束有关gydF4y2Ba\(\ phi(g)= n \)gydF4y2Ba敌我识别gydF4y2Ba\(Gamma (g) = *)gydF4y2Ba.因此,如果gydF4y2BaggydF4y2Ba推导一个原点事件,然后是一对映射gydF4y2Ba\(\ phi \)gydF4y2Ba和gydF4y2Ba\γ(\ \)gydF4y2Ba限于域gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)是独立的。因此,对于一个gydF4y2Ba起源子树gydF4y2Ba的子树gydF4y2BaGgydF4y2Ba谁的根引起了一个原始事件,找到了最佳物种映射的过程gydF4y2Ba\(\ phi \)gydF4y2Ba能从寻找最优同线区域映射的过程中解耦吗gydF4y2Ba\γ(\ \)gydF4y2Ba.此外,根据定义,诱发起源事件的顶点不能与祖先相关。因此,在和解中gydF4y2Ba\((\ phi,\ gamma)\)gydF4y2Ba在哪里gydF4y2Ba\(g',g'')gydF4y2Ba归纳起源事件,物种和同序区域映射限制到起源子树gydF4y2Ba\ (G (G) \)gydF4y2Ba独立于限于原点子树的映射gydF4y2Ba(g(g')\)gydF4y2Ba.gydF4y2Ba

对于二叉基因树,我们使用动态规划算法来计算每个基因树子树的物种映射的最优代价。然后,我们使用第二种动态规划算法来计算每一个子树的syntenic区域映射的最优代价。最后,第三种算法结合这些结果找到了dlor MPR问题的最优解。对于非二叉基因树,这种解耦不再可能,在第9节中提出了一种不同的(效率较低的)算法。gydF4y2Ba

计算物种地图gydF4y2Ba

接下来,我们提供了一个有效的算法,用于计算每个原点子树的最佳物种映射gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba).该算法是类似于其他DTL和解算法[gydF4y2Ba4gydF4y2Ba,但是这里使用的变体在后面章节的扩展和概括中很有用。gydF4y2Ba

对于物种映射gydF4y2Ba\(\ phi \)gydF4y2Ba,或其限制到基因树的一个起源子树,我们称之为基因树边gydF4y2Ba\(例如\)gydF4y2Ba是gydF4y2Ba放置gydF4y2Ba在种树边缘gydF4y2Ba\ (e_s \)gydF4y2Ba如果任gydF4y2Ba\(\ phi(g)= s \)gydF4y2Ba或者如果路径gydF4y2Ba\φ(p (g)) (\ \)gydF4y2Ba来gydF4y2Ba\(\ phi(g)\)gydF4y2Ba包括顶点gydF4y2Ba年代gydF4y2Ba,除非gydF4y2BapgydF4y2Ba(gydF4y2BaggydF4y2Ba的一个物种形成事件gydF4y2Ba年代gydF4y2Ba.作为一个特例,如果gydF4y2BaggydF4y2Ba那么,这是一个原始子树的根吗gydF4y2Ba\(p(g)) = N\)gydF4y2Ba.在这种情况下,没有路径gydF4y2Ba\φ(p (g)) (\ \)gydF4y2Ba来gydF4y2Ba\(\ phi(g)\)gydF4y2Ba,所以gydF4y2Ba\(例如\)gydF4y2Ba放在gydF4y2Ba\ (e_s \)gydF4y2Ba当且仅当gydF4y2Ba\(\ phi(g)= s \)gydF4y2Ba.如果gydF4y2Ba\(\ phi(g)= s \)gydF4y2Ba我们说gydF4y2Ba\(例如\)gydF4y2Ba终止gydF4y2Ba边缘gydF4y2Ba\ (e_s \)gydF4y2Ba而如果gydF4y2Ba\(\ phi(g)\)gydF4y2Ba是gydF4y2Ba年代gydF4y2Ba然后就会产生损失事件,我们说gydF4y2Ba\(例如\)gydF4y2Ba仍在继续gydF4y2Ba的相应子边上gydF4y2Ba\ (e_s \)gydF4y2Ba.gydF4y2Ba

让gydF4y2BaCgydF4y2Ba(gydF4y2BaggydF4y2Ba)表示限于域的物种映射的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),让gydF4y2Ba\ (C (e_g e_s) \)gydF4y2Ba表示的物种映射的最优代价gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),这样gydF4y2Ba\(例如\)gydF4y2Ba放在gydF4y2Ba\ (e_s \)gydF4y2Ba.然后gydF4y2Ba(C(g) = min _{e_s\in e_s})gydF4y2Ba

我们现在描述一种计算算法gydF4y2Ba\ (C (e_g e_s) \)gydF4y2Ba.算法计算gydF4y2BaCgydF4y2Ba通过自底向上(postorder)基因树中的边来考虑表:一条边gydF4y2Ba\(例如\)gydF4y2Ba如果有gydF4y2BaggydF4y2Ba是叶边还是子边gydF4y2Ba\(e_ {g_1} \)gydF4y2Ba和gydF4y2Ba\ (e_ {g_2} \)gydF4y2Ba已被考虑。为每条边gydF4y2Ba\(例如\)gydF4y2Ba正在考虑,我们现在考虑每个边缘gydF4y2Ba\ (e_s \)gydF4y2Ba在物种树中。gydF4y2Ba

计算gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba,我们列举了四种可能的情况:gydF4y2Ba

  • 在基本情况下,如果gydF4y2BaggydF4y2Ba和gydF4y2Ba年代gydF4y2Ba叶子,那么:gydF4y2Ba

    $ $ \{对齐}开始C (e_g e_s) ={\左\{\{数组}{你}开始0 & {}\ hbox{如果}\ \φ(g) = s \ \ \ infty &文本{否则}{}\ \{数组}结束\。} \{对齐}$ $gydF4y2Ba
    (1)gydF4y2Ba
  • 如果既不是gydF4y2BaggydF4y2Ba也不gydF4y2Ba年代gydF4y2Ba是一片叶子,然后是gydF4y2BaggydF4y2Ba映射到gydF4y2Ba年代gydF4y2Ba或不。如果gydF4y2BaggydF4y2Ba没有映射到gydF4y2Ba年代gydF4y2Ba,则会造成损失gydF4y2Ba年代gydF4y2Ba通过映射到它的一个子结点。否则,gydF4y2BaggydF4y2Ba映射到gydF4y2Ba年代gydF4y2Ba,导致物种形成、复制或转移事件,从而产生相应的成本。因此,gydF4y2Ba

    $$ \ begined {senugented} c(e_g,e_s)=&\ min \ {{\ textsc {spem}}(e_g,e_s),{\ textsc {loss}}(e_g,e_s)\ nonumber \\&{\ textsc {dup}}(e_g,e_s),{\ textsc {transfer}}(e_g,e_s)\} \ ent {对齐} $$gydF4y2Ba
    (2)gydF4y2Ba

    计算的地方gydF4y2Ba\({\ textsc {spec}} \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{损失}}\)gydF4y2Ba,gydF4y2Ba\ ({\ textsc {Dup}} \)gydF4y2Ba, 和gydF4y2Ba\ ({\ textsc{转让}}\)gydF4y2Ba如下所述。gydF4y2Ba

  • 如果gydF4y2BaggydF4y2Ba难道不是一片树叶吗gydF4y2Ba年代gydF4y2Ba是叶,然后形态和损耗gydF4y2BaggydF4y2Ba是不可能的,所以:gydF4y2Ba

    $ $ \{对齐}开始C (e_g e_s) = \敏\ {{\ textsc {Dup}} (e_g e_s), {\ textsc{转让}}(e_g e_s) \} \{对齐}$ $gydF4y2Ba
    (3)gydF4y2Ba
  • 如果gydF4y2BaggydF4y2Ba是一片叶子gydF4y2Ba年代gydF4y2Ba难道不是一片叶子,那么物种形成,复制和转移在吗gydF4y2BaggydF4y2Ba是不可能的,所以:gydF4y2Ba

    $ $ \{对齐}开始C (e_g e_s) = {\ textsc{损失}}(e_g e_s) \{对齐}$ $gydF4y2Ba
    (4)gydF4y2Ba

的函数gydF4y2Ba\({\ textsc {spec}}(e_g,e_s)\)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{损失}}(e_g e_s) \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc {Dup}} (e_g e_s) \)gydF4y2Ba, 和gydF4y2Ba\ ({\ textsc{转让}}(e_g e_s) \)gydF4y2Ba计算如下:gydF4y2Ba

$$ \ begined {senugent} {\ textsc {spec}}(e_g,e_s)=&{} \ min \ {c(e_ {g_1},e_ {s_1})+ c(e_ {g_2},e_ {s_2}),\ nonumer \\&c(e_ {g_1},e_ {s_2})+ c(e_ {g_2},e_ {s_1})\} \ neat {对齐} $$gydF4y2Ba
(5)gydF4y2Ba
$ $ \开始{对齐}{\ textsc{损失}}(e_g e_s) = & {} \ mathbf {L} + \敏\ {C (e_g, e_ {s_1}), C (e_g, e_ {s_2}) \} \{对齐}$ $gydF4y2Ba
(6)gydF4y2Ba
$$ \ begined {legiled} {\ textsc {dup}}(e_g,e_s)=&{} \ mathbf {d} + c(e_ {g_1},e_s)+ c(e_ {g_2},e_s)\结束{对齐} $$gydF4y2Ba
(7)gydF4y2Ba

\(\ \ \ {\ textsc {tresct}}(e_g,e_s)= \ mathbf {t} + \)gydF4y2Ba

$ $ \开始{对齐}\敏\境\{\{数组}{1}开始C (e_ {g_1里面},e_s) + {\ textsc{好的转学}}(e_ {g_2}, e_s), \ \ C (e_ {g_2}, e_s) + {\ textsc{好的转学}}(e_ {g_1里面},e_s) \结束数组{}\{对齐}$ $gydF4y2Ba
(8)gydF4y2Ba

物种形成术语(gydF4y2Ba5gydF4y2Ba)考虑两种儿童边缘的方式gydF4y2Ba\(例如\)gydF4y2Ba可以放在孩子的边缘上吗gydF4y2Ba\ (e_s \)gydF4y2Ba在物种事件中。损失术语(gydF4y2Ba6gydF4y2Ba)考虑了两方面的优势gydF4y2Ba\(例如\)gydF4y2Ba可以继续,无论是一个孩子gydF4y2Ba\ (e_s \)gydF4y2Ba或其他。复制术语(gydF4y2Ba7gydF4y2Ba)放置两个子结点的边缘gydF4y2Ba\(例如\)gydF4y2Ba在gydF4y2Ba\ (e_s \)gydF4y2Ba.在转让条款中(gydF4y2Ba8gydF4y2Ba),我们考虑两种选择转移的儿童边缘的方法。非转移的儿童边缘gydF4y2Ba\(例如\)gydF4y2Ba仍在gydF4y2Ba\ (e_s \)gydF4y2Ba,但转移的子边缘被放置在由此确定的物种边缘上gydF4y2Ba\({\ textsc {最佳传输}} \)gydF4y2Ba;gydF4y2Ba\ ({\ textsc{好的转学}}(e_j e_s) \)gydF4y2Ba表示子树映射的最小代价gydF4y2Ba(g(g_j)\)gydF4y2Ba假如说gydF4y2Ba\(e_j \)gydF4y2Ba处于既不是祖先也不是后代的物种边缘gydF4y2Ba\ (e_s \)gydF4y2Ba.为了计算这些值,该算法维护另一个名为gydF4y2Ba\({\ textsc {best-entry}}(e_g,e_s)\)gydF4y2Ba哪个存储的最小值gydF4y2Ba\ (C (e_g e_i) \)gydF4y2Ba对所有gydF4y2Ba\ (e_i \)gydF4y2Ba在根在的子树中gydF4y2Ba\ (e_s \)gydF4y2Ba.算法在算法1中给出。gydF4y2Ba

雕像gydF4y2Ba

计算Synteny地图gydF4y2Ba

我们使用另一种动态编程算法来找到每个子树的同时性区域映射的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba).让gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba表示的同序区域映射的最优代价gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba).让gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba表示的同序区域映射的最优代价gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),这样gydF4y2BaggydF4y2Ba有共线区吗gydF4y2Ba\ \)(\拼gydF4y2Ba.然后gydF4y2Ba\ ({\ textsc {syn}} (g) = \分钟_ {\ L中的魔法\}{\ textsc {syn}} (g \ L形)\)gydF4y2Ba.gydF4y2Ba

如果gydF4y2BaggydF4y2Ba是一片树叶吗gydF4y2Ba\(g) = (g)gydF4y2Ba(规则1在定义中gydF4y2Ba\γ(\ \)gydF4y2Ba).因此,gydF4y2Ba

$$ \ {开始对准} {\ textsc {顺}}(克,\ ELL)= {\左\ {\开始{阵列} {LL} 0&{} \ {hbox中如果} \ \伽马(克)=\ ELL \\?\ infty&{} \ {文本否则} \ {端阵列} \右。} \{对齐}$ $gydF4y2Ba
(9)gydF4y2Ba

如果gydF4y2BaggydF4y2Ba那么,不是一片树叶吗gydF4y2Ba\ (g_1里面\)gydF4y2Ba和gydF4y2Ba\(G_2 \)gydF4y2Ba指的是gydF4y2BaggydF4y2Ba):gydF4y2Ba

$$ \ {开始对准} {\ textsc {顺}}(克,\ ELL)=&\分钟\ {{\ textsc {顺}}(G_1,\ ELL),\ mathbf {R} + {\ textsc {顺}}(G_1)\} + \ nonumber \\&\分钟\ {{\ textsc {顺}}(G_2,\ ELL),\ mathbf {R} + {\ textsc {顺}}(G_2)\}\{对齐}$ $gydF4y2Ba
(10)gydF4y2Ba

这就是每个孩子的原因gydF4y2Ba\ (g_1里面\)gydF4y2Ba和gydF4y2Ba\(G_2 \)gydF4y2Ba留在相同的同步区域gydF4y2BaggydF4y2Ba或潜在地改变为新地区并产生成本gydF4y2Ba\(\ mathbf {r} \)gydF4y2Ba.计算算法gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba在算法2中进行了总结。gydF4y2Ba

贴图gydF4y2Ba

解决Dtlor MPR问题gydF4y2Ba

让gydF4y2Ba\ ({\ textsc{起源}}(g) \)gydF4y2Ba表示调和起源子树的成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)如前所述,哪个可以计算为gydF4y2Ba\ ({\ textsc{起源}}(g) = \ mathbf {O} + C (g) + {\ textsc {syn}} (g) \)gydF4y2Ba.要找到最大的解析和解,因此必须确定原始事件的最佳位置。gydF4y2Ba

让gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba是调和的性价比最优gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),这样gydF4y2BaggydF4y2Ba有未知的同期区域gydF4y2Ba\ \ (*)gydF4y2Ba.由于给定的映射gydF4y2Ba\γ(\ \)gydF4y2Ba必须尊重同序区域的叶子,gydF4y2BaggydF4y2Ba可以不被分配同线区域gydF4y2Ba\ \ (*)gydF4y2Ba如果gydF4y2BaggydF4y2Ba是叶子。因此,gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba计算为:gydF4y2Ba

$$ \ begined {alpiouned} {\ textsc {null}}(g)= {\ left \ {\ begin {array} {ll} \ infty&{} \ text {if} \ g \ hbox {是一片叶子} \\ \ min \ {{\ textsc {null}}(g_1),{\ textsc {ligin}}(g_1)\} \ \ \\ \ min \ {{\ textsc {null}}(g_2),{\ textsc {Origin}}(g_2)\}&{} \ text {否则} \ end {array} \ revally。} \{对齐}$ $gydF4y2Ba
(11)gydF4y2Ba

协调整个基因树的最优成本gydF4y2BaGgydF4y2Ba是(谁)给的:gydF4y2Ba

$ ${对齐}\ \开始textsc{选择}= \敏\ {{\ textsc{零}}(\ hbox{根}(G)), {\ textsc{起源}}(\ hbox{根}(G)) \} \{对齐}$ $gydF4y2Ba
(12)gydF4y2Ba

计算算法gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba在算法3中进行了总结。gydF4y2Ba

雕像gydF4y2Ba

注意,如果我们希望重建一个最优的解决方案,DP表gydF4y2Ba\(C, {\textsc {syn}}, {\textsc {Null}}\)gydF4y2Ba可以以标准方式进行注释,从而允许通过跟踪表来重新构建解决方案。我们首先通过gydF4y2Ba\({\ textsc {null}} \)gydF4y2Ba表中找到一组产生最优解的起源事件。对于任何基因任何由这些起源事件引起的起源子树的顶点不是,他们都标有未知的同线区域gydF4y2Ba\ \ (*)gydF4y2Ba.对于每一棵原点子树,我们追踪gydF4y2Ba\ ({\ textsc {syn}} \)gydF4y2Ba表中得到一个最优的共线区域映射,然后我们通过gydF4y2BaCgydF4y2Ba表中得到最优物种映射。由于损失事件,可能会有多个gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba在最优解决方案中涉及相同基因顶点的项。该基因顶点的映射对应于这样的最小值gydF4y2Ba\ (e_s \)gydF4y2Ba.gydF4y2Ba

以下证明在附录中:gydF4y2Ba

引理1gydF4y2Ba

算法1正确计算gydF4y2BaCgydF4y2Ba(gydF4y2BaggydF4y2Ba)gydF4y2Ba每个基因顶点gydF4y2Ba\ (V (g) g \ \)gydF4y2Ba.gydF4y2Ba

引理2gydF4y2Ba

算法2正确计算gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba每个基因顶点gydF4y2Ba\ (V (g) g \ \)gydF4y2Ba.gydF4y2Ba

定理1gydF4y2Ba

算法3正确地计算最佳解决DTLOR-MPR问题。gydF4y2Ba

时间复杂度gydF4y2Ba

计算C表的每个条目都需要恒定的时间,因此计算C表的运行时间是gydF4y2BaOgydF4y2Ba(|gydF4y2BaGgydF4y2Ba||gydF4y2Ba年代gydF4y2Ba|)。计算gydF4y2Ba\ ({\ textsc {syn}} \)gydF4y2Ba表需要gydF4y2BaOgydF4y2Ba(|gydF4y2BaGgydF4y2Ba||gydF4y2BalgydF4y2Ba|)时间,计算gydF4y2Ba\({\ textsc {ligin}} \)gydF4y2Ba和gydF4y2Ba\({\ textsc {null}} \)gydF4y2Ba参赛作品需要gydF4y2BaOgydF4y2Ba(|gydF4y2BaGgydF4y2Ba|)时间。总共,这种算法的渐近运行时间是gydF4y2Ba\(O(| G || S | + | G ||大号|)\)gydF4y2Ba.gydF4y2Ba

非二进制基因树gydF4y2Ba

虽然通常可以使用各种方法构建精确的物种树木,但由于其序列数据中可用的相对较少的信息,基因树易受模糊的影响。因此,基因的系统发育树通常具有非二进制顶点,也称为gydF4y2BamultifurcationsgydF4y2Ba或者gydF4y2Ba软多分枝gydF4y2Ba,对应于散度的潜在序列的未知顺序[gydF4y2Ba15.gydF4y2Ba].在这种情况下,我们希望将每种多核扩展为一系列二进制分歧,导致二进制基因树。这种扩展被称为agydF4y2Ba决议gydF4y2Ba或者gydF4y2Ba二值化gydF4y2Ba非二进制树。非二元树的Dtlor MPR问题寻求找到最佳的和解gydF4y2BaGgydF4y2Ba和gydF4y2Ba年代gydF4y2Ba所有可能的决议gydF4y2BaGgydF4y2Ba.gydF4y2Ba

不幸的是,非二叉树的分辨率可以是树中顶点数量的指数级。因此,明确地考虑每一个决议是不切实际的。然而,Kordi和Bansal [gydF4y2Ba15.gydF4y2Ba和Jacox等[gydF4y2Ba16.gydF4y2Ba证明了在DTL模型中求解非二叉树最大简约协调的固定参数多项式时间算法的存在性。这些算法在多项式时间内运行,假设任何非二叉顶点的子顶点的最大数目以某个常数为界gydF4y2BakgydF4y2Ba.更确切地说,在此上下文中的固定参数算法及时运行gydF4y2BaOgydF4y2Ba(gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba)gydF4y2BapgydF4y2Ba(gydF4y2Ba米gydF4y2Ba,gydF4y2BangydF4y2Ba)) 在哪里gydF4y2Ba米gydF4y2Ba和gydF4y2BangydF4y2Ba表示基因和物种树的尺寸,gydF4y2BakgydF4y2Ba为任何基因顶点的最大分支因子,gydF4y2BapgydF4y2Ba(gydF4y2Ba米gydF4y2Ba,gydF4y2BangydF4y2Ba)是一个多项式ingydF4y2Ba米gydF4y2Ba和gydF4y2BangydF4y2Ba, 和gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba)是一些功能gydF4y2BakgydF4y2Ba这甚至可能是指数gydF4y2BakgydF4y2Ba.特别是,gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba)表示由根和组成的树的不同二进制分辨率的个数gydF4y2BakgydF4y2Ba儿童乘以这种二进制分辨率的大小,可以显示为gydF4y2Baf(k) = O(2^k (k-1)!)gydF4y2Ba.对于任何固定的gydF4y2BakgydF4y2Ba,此值是固定常量。jacox等人。[gydF4y2Ba16.gydF4y2Ba]提供一种成果的方法gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba),虽然规模较小,但仍有可能呈指数增长gydF4y2BakgydF4y2Ba.重要的是,固定参数多项式算法比指数时间的算法更高效,实用,如枚举非二进制树,将有运行时间的所有可能的解决方案的简单方法gydF4y2Ba\ (O (2 ^ k (k - 1)) ^ n) \)gydF4y2Ba.gydF4y2Ba

在本节中,我们描述一个固定参数多项式时间算法的dlor MPR问题。遵循Kordi和Bansal的方法[gydF4y2Ba15.gydF4y2Ba[我们的算法将每个非二进制顶点扩展到每种可能的二进制分辨率,但避免枚举整个树的所有可能的二进制分辨率,从而导致固定参数多项式算法而不是指数时间算法。虽然我们的算法利用了Kordi和Bansal提出的第一次提出的非二进制顶点的重要想法[gydF4y2Ba15.gydF4y2Ba],它需要一个新的算法,由于gydF4y2BaOgydF4y2Ba和gydF4y2BaRgydF4y2Ba事件。gydF4y2Ba

非二进制基因树的每个二进制分辨率都意味着基因树的拓扑结构不同,这引起了物种映射和同时区映射的潜在不同成本。注意,对于最小化物种映射的成本,可以最有利于最有利的,而不同的分辨率可能承认最低昂贵的同步区域映射(图。gydF4y2Ba1gydF4y2Ba).因此,虽然在二进制基因树中,物种映射和同步区域映射可以独立地有效地解决,然后将其合并为Dtll MPR问题的最佳解决方案,在非二元基因树的存在下情况更复杂。此处呈现的算法考虑了物种映射和同时性区域,同时作为非二进制顶点逐一解析。重要的是,一旦找到了在给定基因顶点的子树中找到的最佳分辨率,就可以保存并使用该值作为动态程序处理祖先的gydF4y2BaggydF4y2Ba.因此,不需要考虑基因树的完全解析,相反,非二叉顶点可以一次一个地解析。这就产生了一种算法,在单个非二进制顶点的分辨率上是可加的,而不是可乘的。gydF4y2Ba

图1gydF4y2Ba
图1gydF4y2Ba

一个例子表明多分枝的一个分辨率对于物种作图是最优的,而另一个分辨率对于同线区域作图是最优的。gydF4y2Ba一个gydF4y2Ba与六个叶基因树标有自己的同线的区域。gydF4y2BabgydF4y2Ba一个物种树。tip的关联是gydF4y2Ba\(\ phi(g_i)= s_i \)gydF4y2Ba,gydF4y2Ba\(1 \ Le i \ Le 6 \)gydF4y2Ba.gydF4y2BacgydF4y2Ba基因树的二进制决议,其中最优品种映射成本一定比原产地更大的成本gydF4y2BaOgydF4y2Ba由于这种树对物种树没有同位素;这种情况下的最佳重排次数为1。gydF4y2BadgydF4y2Ba基因树的另一种二元决议,其中最优品种映射成本只是成本的起源gydF4y2BaOgydF4y2Ba因为这棵树与物种树是同构的;在这种情况下,最优的重排次数是2gydF4y2Ba

下面的定义和方程假设端点gydF4y2BaggydF4y2Ba的边缘gydF4y2Ba\(例如\)gydF4y2Ba要么是叶子还是究竟有两个孩子。后来,我们展示了如何将这些应用于非二元树。让gydF4y2Ba(c(e_g,e_s,\ ell)\)gydF4y2Ba表示重新调整子树的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba) 和gydF4y2Ba年代gydF4y2Ba这样gydF4y2Ba\(例如\)gydF4y2Ba放在gydF4y2Ba\ (e_s \)gydF4y2Ba和gydF4y2BaggydF4y2Ba有共线区吗gydF4y2Ba\ \)(\拼gydF4y2Ba.注意对比gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba用于上一节,gydF4y2Ba(c(e_g,e_s,\ ell)\)gydF4y2Ba也编码了约束gydF4y2BaggydF4y2Basyntenic地区gydF4y2Ba\ \)(\拼gydF4y2Ba总代价包括子树中重排事件的代价gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba).我们定义gydF4y2Ba\({\textsc {best entry}}(e_g, e_s, \ell)\)gydF4y2Ba和gydF4y2Ba\({\textsc {best transfer}}(e_g, e_s, \ell)\)gydF4y2Ba类似地,gydF4y2Ba\({\ textsc {best-entry}}(e_g,e_s)\)gydF4y2Ba和gydF4y2Ba

\({\ textsc {best-transfer}}(e_g,e_s)\)gydF4y2Ba,分别在上一节中介绍。我们定义gydF4y2Ba\ (C (e_g e_s, L) = \分钟_{\魔法\ L} C (e_g、e_s \ L形)\)gydF4y2Ba和gydF4y2Ba

$ $ \开始{对齐}{\ textsc{好的转学}}(e_g e_s, L) = \分钟_ {\ L中的魔法\}{\ textsc{好的转学}}(e_g、e_s \ L形)\{对齐}$ $gydF4y2Ba

我们计算gydF4y2Ba(c(e_g,e_s,\ ell)\)gydF4y2Ba在后缀次序。有四种情况:gydF4y2Ba

  • 在基本情况下,如果gydF4y2BaggydF4y2Ba和gydF4y2Ba年代gydF4y2Ba叶子,那么:gydF4y2Ba

    $ $ \{对齐}开始C (e_g、e_s \ l形)={\左\{\{数组}{你}开始0 & {}\ hbox{如果}\ \φ(g) = s \ \ hboxγ(g) ={和}\ \ \魔法\ \ \ infty &文本{否则}{}\ \{数组}结束\。} \{对齐}$ $gydF4y2Ba
    (13)gydF4y2Ba
  • 如果既不是gydF4y2BaggydF4y2Ba也不gydF4y2Ba年代gydF4y2Ba是一片叶子,然后:gydF4y2Ba

    $$ \ begined {senugented} c(e_g,e_s,\ ell)=&\ min \ {{\ textsc {spec}}(e_g,e_s,\ ell),{\ textsc {lock}}(e_g,e_s,\ ell),\ nonumber \\&{\ textsc {dup}}(e_g,e_s,\ ell),{\ textsc {transfer}}(e_g,e_s,\ ell)\} \ neg {对齐} $$gydF4y2Ba
    (14)gydF4y2Ba

    计算的地方gydF4y2Ba\({\ textsc {spec}} \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{损失}}\)gydF4y2Ba,gydF4y2Ba\ ({\ textsc {Dup}} \)gydF4y2Ba, 和gydF4y2Ba\ ({\ textsc{转让}}\)gydF4y2Ba如下所述。gydF4y2Ba

  • 如果gydF4y2BaggydF4y2Ba难道不是一片树叶吗gydF4y2Ba年代gydF4y2Ba是一片叶子,然后:gydF4y2Ba

    $$ \ begined {senugented} c(e_g,e_s,\ ell)= \ min \ {{\ textsc {dup}}(e_g,e_s,\ ell),{\ textsc {transfer}}(e_g,e_s,\ell)\ \ \结束{对齐} $$gydF4y2Ba
    (15)gydF4y2Ba
  • 如果gydF4y2BaggydF4y2Ba是一片叶子gydF4y2Ba年代gydF4y2Ba不是叶子,然后:gydF4y2Ba

    $$ \ begined {对齐} c(e_g,e_s,\ ell)= {\ textsc {loss}}(e_g,e_s,\ ell)\结束{对齐} $$gydF4y2Ba
    (16)gydF4y2Ba

的函数gydF4y2Ba\ ({\ textsc{规范}}(e_g、e_s \ l形)\)gydF4y2Ba,gydF4y2Ba\({\ textsc {loss}}(e_g,e_s,\ ell)\)gydF4y2Ba,gydF4y2Ba\({\ textsc {dup}}(e_g,e_s,\ ell)\)gydF4y2Ba, 和gydF4y2Ba\({\ textsc {transfer}}(e_g,e_s,\ ell)\)gydF4y2Ba计算如下:gydF4y2Ba

\({\textsc {Spec}}(e_g, e_s, \ell) = \min \{)gydF4y2Ba

$ $ \开始{对齐}\敏\ {C (e_ {g_1里面},e_ {s_1}, \ L形),\ mathbf {R} + C (e_ {g_1里面},e_ {s_1}, L) \} + \ nonumber \ \ \分钟\ {C (e_ {g_2}, e_ {s_2}, \ L形),\ mathbf {R} + C (e_ {g_2}, e_ {s_2}, L) \}, \ nonumber \ \ \分钟\ {C (e_ {g_1里面},e_ {s_2}, \ L形),\ mathbf {R} + C (e_ {g_1里面},e_ {s_2}, L) \} + \ nonumber \ \ \分钟\ {C (e_ {g_2}, e_ {s_1}, \ L形),\ mathbf {R} + C (e_ {g_2}, e_ {s_1},L) \} \} \{对齐}$ $gydF4y2Ba
(17)gydF4y2Ba
$ $ \开始{对齐}{\ textsc{损失}}(e_g、e_s \ l形 )= & {} \ mathbf {L} + \敏\ {C (e_g, e_ {s_1}, \ L形),C (e_g, e_ {s_2}, \ L形)\}\{对齐}$ $gydF4y2Ba
(18)gydF4y2Ba

\({\textsc {Dup}}(e_g, e_s,\ell) =)gydF4y2Ba

$$ \ {开始对准}&\ mathbf {d} + \分钟\ {C(E_ {G_1},e_s,\ ELL),\ mathbf {R} + C(E_ {G_1},e_s,L)\}\ nonumber \\&\四+ \分钟\ {C(E_ {G_2},e_s,\ ELL),\ mathbf {R} + C(E_ {G_2},e_s,L)\} \ {端对齐} $$gydF4y2Ba
(19)gydF4y2Ba

\ ({\ textsc{转让}}(e_g、e_s \ l形)= \ mathbf {T} + \敏\ {\)gydF4y2Ba

$$ \ {开始对准}&\分钟\ {C(E_ {G_1},e_s,\ ELL),\ mathbf {R} + C(E_ {G_1},e_s,L)\} + \ nonumber \\&\四\分钟\ {{\ textsc {最佳传输}}(E_ {G_2},e_s,\ ELL),\ nonumber \\&\四\ mathbf {R} + {\ textsc {最佳传输}}(E_ {G_2},e_s,L)\},\ nonumber \\&\四\分钟\ {C(E_ {G_2},e_s,\ ELL),\ mathbf {R} + C(E_ {G_2},e_s,l)\} + \nonumber \\&\quad \min \{{\textsc {Best-Transfer}}(e_{g_1}, e_s, \ell ), \nonumber \\ \mathbf{R }+ {\textsc {Best-Transfer}}(e_{g_1}, e_s, L)\}\} \end{aligned}$$
(20)gydF4y2Ba

为了计算gydF4y2Ba\({\ textsc {最佳传输}} \)gydF4y2Ba,我们计算gydF4y2Ba\({\textsc {best entry}}(e_g, e_s, \ell)\)gydF4y2Ba如下。如果gydF4y2Ba年代gydF4y2Ba是一片树叶吗gydF4y2Ba

$ $ \开始{对齐}{\ textsc{最好的入门}}(e_g、e_s \ l形)= C (e_g、e_s \魔法)。\{对齐}$ $gydF4y2Ba
(21)gydF4y2Ba

否则,gydF4y2Ba

$$ \ begined {senugented} {\ textsc {best-entry}(e_g,e_s,\ ell)=&\ min \ {c(e_g,e_s,\ ell),\ nonumber \\&{\ textsc {最佳-Entry}}(e_g,e_ {s_1},\ ell),{\ textsc {best-entry}}(e_g,e_ {s_2},\ ell)\} \ end {对齐} $$gydF4y2Ba
(22)gydF4y2Ba

\({\textsc {best transfer}}(e_g, e_s, \ell)\)gydF4y2Ba然后按预定顺序计算:首先,对于手柄边缘gydF4y2Ba\(e ^ s \)gydF4y2Ba

$$ \ begin {aligned} {\ textsc {best-transfer}}(e_g,e ^ s,\ ell)= \ infty \ end {对齐} $$gydF4y2Ba
(23)gydF4y2Ba

对于其他所有边,gydF4y2Ba\ (e_s \)gydF4y2Ba与儿童边缘gydF4y2Ba\ (e_ {s_1} \)gydF4y2Ba和gydF4y2Ba\ (e_ {s_2} \)gydF4y2Ba

\({\ textsc {best-transfer}}(e_g,e_ {s_1},\ ell)= \ min \ {\)gydF4y2Ba

$ $ \开始{对齐}{\ textsc{好的转学}}(e_g、e_s \ l形),{\ textsc{最好的入门}}(e_g, e_ {s_2}, \ l形)\}\{对齐}$ $gydF4y2Ba
(24)gydF4y2Ba

\({\ textsc {best-transfer}}(e_g,e_ {s_2},\ ell)= \ min \ {\)gydF4y2Ba

$ $ \开始{对齐}{\ textsc{好的转学}}(e_g、e_s \ l形),{\ textsc{最好的入门}}(e_g, e_ {s_1}, \ l形)\}\{对齐}$ $gydF4y2Ba
(25)gydF4y2Ba

现在,我们考虑每个内部顶点的情况gydF4y2BaggydF4y2Ba是否指定了任意数量的子结点gydF4y2Ba\(g_1,\ ldots g_k \)gydF4y2Ba,gydF4y2Ba\(k \ ge 2 \)gydF4y2Ba.一个gydF4y2Ba二进制分辨率gydF4y2BaggydF4y2Ba定义为二叉树,其根是gydF4y2BaggydF4y2Ba谁的叶子是gydF4y2Ba\(g_1,g_2, ldots, g_k\)gydF4y2Ba.让gydF4y2BaBRgydF4y2Ba(gydF4y2BaggydF4y2Ba)表示的所有二进制分辨率的集合gydF4y2BaggydF4y2Ba.请注意,如果gydF4y2BaggydF4y2Ba有两个子结点,然后只有一个二进制分辨率。还要注意顶点的二进制分辨率gydF4y2BaggydF4y2Ba与整个基因树的二进制分辨率不同;前者只能解决gydF4y2BaggydF4y2Ba进入二元子树,而后者解析了所有非二进制顶点gydF4y2BaGgydF4y2Ba.gydF4y2Ba

让gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba是调和的性价比最优gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba) 和gydF4y2Ba年代gydF4y2Ba这样gydF4y2BaggydF4y2Ba有未知的同期区域gydF4y2Ba\ \ (*)gydF4y2Ba.让gydF4y2Ba\ ({\ textsc{起源}}(g) \)gydF4y2Ba是调和的性价比最优gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba) 和gydF4y2Ba年代gydF4y2Ba这样gydF4y2BaggydF4y2Ba诱发一个起源事件。让gydF4y2BaHgydF4y2Ba对于二进制分辨率gydF4y2BaggydF4y2Ba,让gydF4y2Ba(g ^ h(g)\)gydF4y2Ba表示子树gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),以及它的手柄,这样gydF4y2BaggydF4y2Ba它的孩子已经被gydF4y2BaHgydF4y2Ba.请注意,如果gydF4y2BaggydF4y2Ba有两个孩子吗gydF4y2Ba\ (G ^ H (G) = G (G) \)gydF4y2Ba.让gydF4y2Ba\(c ^ h \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{最好的入门}}^ H \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{好的转学}}^ H \)gydF4y2Ba,gydF4y2Ba\({\ textsc {origin}} ^ h \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{零}}^ H \)gydF4y2Ba对应于gydF4y2BaCgydF4y2Ba,gydF4y2Ba\ ({\ textsc{最好的入门}}\)gydF4y2Ba,gydF4y2Ba\({\ textsc {最佳传输}} \)gydF4y2Ba,gydF4y2Ba\({\ textsc {ligin}} \)gydF4y2Ba, 和gydF4y2Ba\({\ textsc {null}} \)gydF4y2Ba(从上一节)gydF4y2Ba(g ^ h(g)\)gydF4y2Ba.gydF4y2Ba

让gydF4y2Ba\(e_h \)gydF4y2BaingydF4y2BaHgydF4y2Ba.如果gydF4y2Ba\(e_h \)gydF4y2Ba叶边在吗gydF4y2BaHgydF4y2Ba(因此gydF4y2BahgydF4y2Ba是其中一个孩子gydF4y2BaggydF4y2Ba在gydF4y2BaGgydF4y2Ba), 然后gydF4y2Ba(c ^ h(e_h,e_s,\ ell)= c(e_h,e_s,\ ell)\)gydF4y2Ba对所有gydF4y2Ba\(e_s,\ ell \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{起源}}^ H (H) = {\ textsc{起源}}(H) \)gydF4y2Ba, 和gydF4y2Ba{{textsc {Null}}^H(H) = {\textsc {Null}}(H)\gydF4y2Ba.因此,由于算法考虑了每个基因的边缘gydF4y2Ba\(例如\)gydF4y2Ba在postorder中,它会考虑每个二进制分辨率gydF4y2BaHgydF4y2Ba的gydF4y2BaggydF4y2Ba以及诱导子树gydF4y2Ba(g ^ h(g)\)gydF4y2Ba.在gydF4y2Ba(g ^ h(g)\)gydF4y2Ba它考虑边缘gydF4y2BaHgydF4y2Ba在后序来计算最优和解gydF4y2Ba(g ^ h(g)\)gydF4y2Ba.最后,对所有二进制分辨率的最佳和解gydF4y2BaHgydF4y2Ba的gydF4y2BaggydF4y2Ba产生最佳的和解gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba).算法在算法4中进行了总结。(回想一下,gydF4y2Ba\(H_1)gydF4y2Ba和gydF4y2Ba\ (h_2 \)gydF4y2Ba表示顶点的两个孩子gydF4y2BahgydF4y2Ba.)gydF4y2Ba

算gydF4y2Ba

定理2.gydF4y2Ba

算法4正确地计算了非二叉基因树DTLOR-MPR问题的最优解。gydF4y2Ba

证明总结在附录中。gydF4y2Ba

时间复杂度gydF4y2Ba

该算法首先初始化gydF4y2Ba\({\ textsc {ligin}} \)gydF4y2Ba,gydF4y2Ba\({\ textsc {null}} \)gydF4y2Ba,gydF4y2BaCgydF4y2Ba基因树的所有叶子边缘的条目,其需要gydF4y2BaOgydF4y2Ba(|gydF4y2BaGgydF4y2Ba|)时间。然后,对每个内部基因边缘gydF4y2Ba\(例如\)gydF4y2Ba该算法遍历所有二进制决议gydF4y2BaHgydF4y2Ba在基因顶点处进行计算gydF4y2Ba\(c ^ h \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{最好的入门}}^ H \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{好的转学}}^ H \)gydF4y2Ba,gydF4y2Ba\({\ textsc {origin}} ^ h \)gydF4y2Ba, 和gydF4y2Ba\ ({\ textsc{零}}^ H \)gydF4y2Ba,这需要gydF4y2BaS H \ (O (| | | | | |) = O (k | | | |) \)gydF4y2Ba时间。(这里|gydF4y2BaHgydF4y2Ba|是基因顶点的任何二进制分辨率的大小,它被束缚在一起gydF4y2BaOgydF4y2Ba(gydF4y2BakgydF4y2Ba),gydF4y2BakgydF4y2Ba为基因树中任意顶点的最大度。)为每一个gydF4y2BaHgydF4y2Ba,算法更新的所有条目gydF4y2Ba(c(e_g,e_s,\ ell)\)gydF4y2Ba和gydF4y2Ba\ (C (e_g e_s左)\)gydF4y2Ba,这需要gydF4y2BaOgydF4y2Ba(|gydF4y2BalgydF4y2Ba||gydF4y2Ba年代gydF4y2Ba|)时间。计算所有基因边和二进制分辨率的所有DP项的运行时间为gydF4y2BaOgydF4y2Ba(gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba)gydF4y2BakgydF4y2Ba|gydF4y2BaGgydF4y2Ba||gydF4y2Ba年代gydF4y2Ba||gydF4y2BalgydF4y2Ba|)时间,gydF4y2BafgydF4y2Ba(gydF4y2BakgydF4y2Ba)任何基因顶点的二进制解析数的上界。gydF4y2Ba

结果gydF4y2Ba

Dtlor MPR算法的实现(算法3)集成到Xenogi软件包中[gydF4y2Ba2gydF4y2Ba[旨在重建微生物蛹中的基因组演变史。Xenogi作为输入一组测序的基因组,识别该组内的基因家族,并通过共同起源组分组这些家庭。以前版本的Xenogi以物种树意识的方式创建了基因家族,但没有利用对帐。它能够将基因家族映射到物种树上并确定其原产地。然而,在基因家族的后续演化中,它无法重建事件(例如损失或重排)。Dtlor MPR算法的集成允许Xenogi重建这些后续事件,为微生物演进提供潜在的重要新见解。gydF4y2Ba

在新的DTLOR版本xenoGI中,我们构建了每个家族的基因树,然后将其与物种树进行调和。由此产生的和解可以用来细化家庭(例如,根据起源事件的位置将其划分为多个部分),并提供关于家庭后续演变的详细信息。gydF4y2Ba

表1显示了在给定的所有基因树上的Xenogi内的Dtlor MPR算法的运行时间给出的输入范围为4-15个细菌基因组(物种)。使用FastTree建造树木[gydF4y2Ba17.gydF4y2Ba]及肌肉[gydF4y2Ba18.gydF4y2Ba在每一种情况下,DTLOR都在每一个具有两个以上叶子的二元基因树上运行,基因树以所有可能的方式扎根。这些计算是在一台普通服务器上执行的(50个AMD Opteron 6276 2.3 GHz处理器,503 GB RAM)。dlor成本分别设为1、1、1、2、2。gydF4y2Ba

表1四种不同树种的运行时gydF4y2Ba
图2gydF4y2Ba
图2.gydF4y2Ba

数据集B的物种树gydF4y2Ba

在我们的一个肠道细菌测试数据集(数据集B在表中gydF4y2Ba1gydF4y2Ba),我们研究DTLOR输出已知基因组岛,酸健身岛(AFI)gydF4y2Ba19.gydF4y2Ba].相应的物种树如图2所示。gydF4y2Ba2gydF4y2Ba.这个岛屿被认为已经开始在分支S2上插入19个基因(通向内部顶点S2的分支),通过从外部外部的水平转移。然后在岩土中进化,并在四个后代菌株中遗传,沿着沿着导致大肠杆菌K12的分支的九个基因的显着损失[gydF4y2Ba2gydF4y2Ba].对于这岛上的几乎所有基因家族,Dtlor产生的对账,将家庭的起源放在通向S2的分支上,并且它在发生的K12分支上正确认可的损失事件。在一些情况下,有多个令人瘫痪的和解(MPRS),其中一个人同意上述情景并被视为正确,而其他人则不同意。最后有一个家庭(谷氨酸脱羧酶),具有明显复杂的插入后进化不完全理解。在这种情况下,使用所选事件成本的MPR都没有似乎是正确的。(这个家庭的演变可能涉及基因转换,但MPR使用我们在本实验中使用的事件成本缺乏转移事件。)gydF4y2Ba

讨论gydF4y2Ba

仍有几个重要问题有待研究。首先,活动成本的影响没有得到很好的理解。就像在DTL模型中一样,不同的事件成本会产生不同的调和,而调和又会导致不同的结论。我们认为,为DTL模型开发的成本景算法[gydF4y2Ba20.gydF4y2Ba可以延伸到DTLO模型,这将提供对事件成本对解决方案的影响的见解。gydF4y2Ba

其次,通常情况是有许多不同的MPR。事实上,即使在DTL模型中,MPR的数量也可以是两棵树大小的指数[gydF4y2Ba21gydF4y2Ba].这些MPRs的子集可能特别有趣,因为它们包含某些被强烈认为已经发生的进化事件(例如,物种树的一个特定分支上的水平转移)。它是可取的,因此,高效过滤器的mpr只包括那些包含一组指定的事件,数一数的mpr过滤集,计算值组成的支持事件,mpr空间,并选择从这个集合代表对账。gydF4y2Ba

最后,需要进一步的系统研究来确定Dtlor MPR算法对现在可以用增强型外交工具进行的分析的完全影响,包括非二进制基因树的情况。gydF4y2Ba

结论gydF4y2Ba

在本文中,我们描述了它扩展了著名的DTL模式,包括原产地和重排事件DTLOR模型。这种模式特别适用于微生物的进化,其中种的树,在许多情况下,不完全采样。因此,对帐必须能够从采样外树占转移事件。此外,DTLOR模型允许同线重排,这也是微生物基因家族普遍。gydF4y2Ba

我们已经描述了有效的算法在DTLOR模型最大简约和解。在二进制树基因,我们的算法解决了DTL和解问题并独立于sytnenic区域的问题,然后组合的这两种算法的结果,产生了特别有效的解决方案。当基因树非二进制,两个子问题不能再以这种方式分离,以及我们对这种情况下的算法同时考虑所有事件。gydF4y2Ba

可用性数据和材料gydF4y2Ba

用于二叉树的DTLOR算法已经在Python 3中实现,可以从以下网站下载gydF4y2Bahttps://github.com/aremath/dtlor.gydF4y2Ba.gydF4y2Ba

缩写gydF4y2Ba

DTLE:gydF4y2Ba

Duplication-transfer-loss-origin-rearrangementgydF4y2Ba

MPR:gydF4y2Ba

最大的吝啬和解gydF4y2Ba

参考gydF4y2Ba

  1. 1。gydF4y2Ba

    Ochman H,Lawrence JG,Groisman EA。横向基因转移与细菌创新性质。自然。2000; 405(6784):299-304。gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  2. 2.gydF4y2Ba

    布什EC,Clark Ae,Deranek Ca,Eng A,Forman J,Heath K,Lee Ab,Stoebel Dm,Wang Z,Wilber M,Wu H. Xenogi:重建紧密相关细菌的蛹中的基因组岛插入历史。BMC生物素。2018; 19(1):32-13211。gydF4y2Bahttps://doi.org/10.1186/s12859-018-2038-0gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  3. 3.gydF4y2Ba

    SzöllősiGJ,Tannier E,Lartillot N,Daubin V.从死亡中转移侧基因。系统中的生物学。2013; 62(3):386-97。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  4. 4.gydF4y2Ba

    Bansal MS,ALM EJ,Kellis M.基因重复,水平转移和损失的对帐问题的高效算法。生物信息学。2012; 28(12):283-91。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  5. 5.gydF4y2Ba

    一种高效的基因/物种树与损失、重复和转移的协调算法。比较基因组学。2011;6398:93 - 108。gydF4y2Ba

  6. 6.gydF4y2Ba

    用树木捕捉网状进化:横向基因转移和癌症进展。博士论文,瑞典皇家理工学院(2009)。gydF4y2Ba

  7. 7.gydF4y2Ba

    RANGER-DTL 2.0:通过复制、转移和丢失对基因家族进化的严格重建。生物信息学2018;34(18):3214 - 3216。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/bty314gydF4y2Ba.gydF4y2Ba

  8. 8.gydF4y2Ba

    Chen K,Durand D,Farach-Colton M. Notung:用于约会基因重复和优化基因家族树的计划。j计算biol。2000; 7(3-4):429-47。gydF4y2Bahttps://doi.org/10.1089/106652700750050871gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学者gydF4y2Ba

  9. 9.gydF4y2Ba

    Conow C, Fielder D, Ovadia Y, libeskin - hadas R. Jane:一种用于父子发生学重建问题的新工具。中国生物医学工程学报。2010;5(16)。gydF4y2Ba

  10. 10。gydF4y2Ba

    Jacox E,Chauve C,SzöllősiGJ,Ponty Y,Scornavacca C. ECCETERA:使用Parsimony的综合基因树种树和解。生物信息学。2016; 32(13):2056-8。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/btw105gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学者gydF4y2Ba

  11. 11.gydF4y2Ba

    Delabre男,埃尔 - 马布鲁克N,胡伯K,拉丰男,莫尔顿V,Noutahi E,Castellanos的M.演进通过节段性重复和损失:超和解方法。算法分子生物学AMB。2020; 15。gydF4y2Ba

  12. 12.gydF4y2Ba

    MA W,Smirnov D,Libeskind-Hadas R. DTL和解修复。BMC生物素。2017; 18(3):76。gydF4y2Bahttps://doi.org/10.1186/s12859-017-1463-9.gydF4y2Ba.gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  13. 13.gydF4y2Ba

    徐敏,徐敏,徐敏。非二元树种树的重复、损失、转移和不完全谱系分类。生物信息学,2012,28(18):409 - 15所示。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  14. 14.gydF4y2Ba

    Ovadia Y, Fielder D, Conow C, libeskin - hadas R.父子发生重建问题是NP-complete。中华医学杂志。2011;18(1):59-65。gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  15. 15.gydF4y2Ba

    基于非二元基因树的重复-转移-损失协调算法。IEEE通信与控制。gydF4y2Bahttps://doi.org/10.1109/TCBB.2017.2710342gydF4y2Ba.gydF4y2Ba

  16. 16.gydF4y2Ba

    Jacox E,Weller M,Tannier E,Scornavacca C.与转移,重复和损失的非二元基因树的分辨率与和解。生物信息学。2017; 33(7):980-7。gydF4y2Bahttps://doi.org/10.1093/bioinformatics/btw778gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba谷歌学者gydF4y2Ba

  17. 17.gydF4y2Ba

    Price MN, Dehal PS, Arkin AP。Fasttree 2 -用于大对齐的近似最大似然树。PLoS ONE。2010; 5(3): 1 - 10。gydF4y2Bahttps://doi.org/10.1371/journal.pone.0009490gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  18. 18.gydF4y2Ba

    埃德加钢筋混凝土。MUSCLE:多序列比对,高精度,高通量。核酸学报2004;32(5):1792-7。gydF4y2Bahttps://doi.org/10.1093/nar/gkh340gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学者gydF4y2Ba

  19. 19.gydF4y2Ba

    Hommais F,Evelyne K,CoppéeJ-y,Lacroix C,Yeramian E,丹丁安,Bertin P. Gade(Yhie):涉及对酸环境的反应涉及的新型活化剂gydF4y2Ba大肠杆菌gydF4y2Ba.微生物学(阅读,英格兰)。2004; 150:61-72。gydF4y2Bahttps://doi.org/10.1099/mic.0.26659-0gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2Ba谷歌学者gydF4y2Ba

  20. 20.gydF4y2Ba

    吴永春,吴永春,李志强,李志强。生物信息学。2014;30(12):87 - 95。gydF4y2Ba

    文章gydF4y2Ba谷歌学者gydF4y2Ba

  21. 21.gydF4y2Ba

    Bansal MS,ALM EJ,Kellis M.调节重新访问:在重复重复,转移和丢失时处理多项Optima。j计算biol。2013; 20(10):738-54。gydF4y2Bahttps://doi.org/10.1089/cmb.2013.0073gydF4y2Ba.gydF4y2Ba

    CAS.gydF4y2Ba文章gydF4y2BaPubMedgydF4y2Ba公共医学中心gydF4y2Ba谷歌学者gydF4y2Ba

下载参考gydF4y2Ba

确认gydF4y2Ba

作者感谢易杰武有价值的讨论,并征求他们的意见和建议匿名评审。gydF4y2Ba

关于这个补充剂gydF4y2Ba

本文已作为BMC Bioinformatics Volume 22 Supplemen欧宝娱乐合法吗t 10 2021: Selected articles from the 19th Asia Pacific Bioinformatics Conference (APBC 2021): Bioinformatics的一部分发表。该补充剂的全部内容可在gydF4y2Ba//www.christinemj.com/articles/supplements/volume-22-supplement-10gydF4y2Ba.gydF4y2Ba

资金gydF4y2Ba

本材料基于国家科学基金会根据IIS-1905885至RLH支持的工作。出版成本由Harvey Mudd College的支持资助。资金机构在方法的设计中没有发挥作用,创建算法,分析和数据的解释,或写作稿件gydF4y2Ba

作者信息gydF4y2Ba

从属关系gydF4y2Ba

作者gydF4y2Ba

贡献gydF4y2Ba

RLH和EB构思了这项研究。SS对模型有贡献。RLH和NL编写了该算法的第一个实现。JL和RM对算法的发展和分析,分析和证明正确性做出了贡献。JL, RM, EB, RLH撰写论文。所有作者阅读并批准了最终的手稿gydF4y2Ba

通讯作者gydF4y2Ba

对应于gydF4y2Ba跑Libeskind-HadasgydF4y2Ba.gydF4y2Ba

道德声明gydF4y2Ba

利益争夺gydF4y2Ba

两位作者宣称他们没有相互竞争的利益。gydF4y2Ba

附录gydF4y2Ba

附录gydF4y2Ba

本附录包含了主要论文的结果的证明。gydF4y2Ba

引理的证明gydF4y2Ba1gydF4y2Ba

证明gydF4y2Ba

我们证明算法正确计算gydF4y2Ba\(c(e_g,\ cdot)\)gydF4y2Ba和gydF4y2Ba\({\textsc {best transfer}}(e_g, \cdot)\)gydF4y2Ba通过结构归纳gydF4y2BaGgydF4y2Ba.对于基本情况gydF4y2Ba\(c(e_g,\ cdot)\)gydF4y2Ba,考虑叶子边缘gydF4y2Ba\(例如\)gydF4y2Ba.我们执行结构诱导gydF4y2Ba年代gydF4y2Ba.在基本情况下gydF4y2Ba\ (e_s \)gydF4y2Ba是叶子边缘,gydF4y2BaggydF4y2Ba必须映射到gydF4y2Ba\(\ phi(g)\)gydF4y2Ba,所以gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba通过等式正确计算gydF4y2Ba1gydF4y2Ba.在归纳步骤中,考虑一个非叶边gydF4y2Ba\ (e_s \)gydF4y2Ba.在这种情况下,gydF4y2BaggydF4y2Ba必须诱导损失事件gydF4y2Ba年代gydF4y2Ba自从gydF4y2BaggydF4y2Ba是一片树叶,那么gydF4y2Ba\(c(e_g,e_s)= {\ textsc {lock}}(e_g,e_s)\)gydF4y2Ba(由eq。gydF4y2Ba4gydF4y2Ba).通过归纳假设,每个后代分支gydF4y2Ba\(e_ {s'} \)gydF4y2Ba的gydF4y2Ba\ (e_s \)gydF4y2Ba,gydF4y2Ba\(c(e_g,e_ {s'})\)gydF4y2Ba是正确的,所以gydF4y2Ba\ ({\ textsc{损失}}(e_g e_s) \)gydF4y2Ba计算正确(通过Eq。gydF4y2Ba6gydF4y2Ba).这就得出了gydF4y2Ba\(c(e_g,\ cdot)\)gydF4y2Ba.gydF4y2Ba

在基本情况下gydF4y2Ba\({\textsc {best transfer}}(e_g, \cdot)\)gydF4y2Ba,我们考虑一片叶子边缘gydF4y2Ba\(例如\)gydF4y2Ba.因为它的正确性依赖于gydF4y2Ba\({\ textsc {best-entry}}(e_g,\ cdot)\)gydF4y2Ba,我们首先使用结构诱导gydF4y2Ba年代gydF4y2Ba证明这一点gydF4y2Ba\({\ textsc {best-entry}}(e_g,\ cdot)\)gydF4y2Ba正确地计算。在基本情况下,gydF4y2Ba\ (e_s \)gydF4y2Ba是叶边,所以唯一的选择gydF4y2Ba\(例如\)gydF4y2Ba输入根为的子树gydF4y2Ba\ (e_s \)gydF4y2Ba是gydF4y2Ba\ (e_s \)gydF4y2Ba.自gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba正确地计算,gydF4y2Ba\({\ textsc {best-entry}}(e_g,e_s)\)gydF4y2Ba也正确地在第17行计算。在归纳步骤中,考虑一个非叶边gydF4y2Ba\ (e_s \)gydF4y2Ba.通过归纳假设,gydF4y2Ba\ ({\ textsc{最好的入门}}(e_g e_{年代})\)gydF4y2Ba每个后代边缘都正确计算gydF4y2Ba\(e_ {s'} \)gydF4y2Ba的gydF4y2Ba\ (e_s \)gydF4y2Ba.方式gydF4y2Ba\(例如\)gydF4y2Ba输入根为的子树gydF4y2Ba\ (e_s \)gydF4y2Ba在gydF4y2Ba\ (e_s \)gydF4y2Ba的左子树gydF4y2Ba\ (e_s \)gydF4y2Ba或右边的子树gydF4y2Ba\ (e_s \)gydF4y2Ba,从而gydF4y2Ba\({\ textsc {best-entry}}(e_g,e_s)\)gydF4y2Ba在第19行正确计算。gydF4y2Ba

现在我们来证明基本情况gydF4y2Ba\({\textsc {best transfer}}(e_g, \cdot)\)gydF4y2Ba使用结构诱导gydF4y2Ba年代gydF4y2Ba从把手边缘gydF4y2Ba\(e ^ s \)gydF4y2Ba.在基本情况下gydF4y2Ba\(e_s = e ^ s \)gydF4y2Ba,所有边都在里面gydF4y2Ba年代gydF4y2Ba是?的后裔gydF4y2Ba\(e ^ s \)gydF4y2Ba的子边没有有效的种边gydF4y2Ba\(例如\)gydF4y2Ba转移到。因此gydF4y2Ba\({\ textsc {best-transfer}}(e_g,e ^ s)\)gydF4y2Ba在第22行正确计算。在归纳步骤中,我们考虑一个非根边gydF4y2Ba\ (e_ {s_1} \)gydF4y2Ba,有一个兄弟姐妹的边缘gydF4y2Ba\ (e_ {s_2} \)gydF4y2Ba.通过归纳假设gydF4y2Ba\ ({\ textsc{好的转学}}(e_g p (e_ {s_1})) \)gydF4y2Ba是正确的计算和归纳证明上gydF4y2Ba\({\ textsc {best-entry}}(e_g,\ cdot)\)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{最好的入门}}(e_g, e_ {s_2}) \)gydF4y2Ba计算正确。因为物种在边缘gydF4y2Ba\(例如\)gydF4y2Ba被允许转移到gydF4y2Ba\ (e_ {s_1} \)gydF4y2Ba不仅包括相同的边缘gydF4y2Ba\(例如\)gydF4y2Ba从gydF4y2Ba(p(e_ {s_1})\)gydF4y2Ba,还在子树中的边缘扎根于gydF4y2Ba\ (e_ {s_2} \)gydF4y2Ba,以及最优的放置成本gydF4y2Ba\(例如\)gydF4y2Ba根在的子树内部gydF4y2Ba\ (e_ {s_2} \)gydF4y2Ba是由gydF4y2Ba\ ({\ textsc{最好的入门}}(e_g, e_ {s_2}) \)gydF4y2Ba,gydF4y2Ba\({\ textsc {best-transfer}}(e_g,e_s)\)gydF4y2Ba计算正确。这就得出了gydF4y2Ba\({\textsc {best transfer}}(e_g, \cdot)\)gydF4y2Ba.gydF4y2Ba

总结…的正确性的证明gydF4y2Ba\ (C (e_ {g} \ cdot) \)gydF4y2Ba,我们考虑一个非叶边缘gydF4y2Ba\(例如\)gydF4y2Ba.我们使用结构诱导gydF4y2Ba年代gydF4y2Ba.在基本情况下,gydF4y2Ba\ (e_s \)gydF4y2Ba是叶子边缘;唯一的两个可能性gydF4y2Ba\(例如\)gydF4y2Ba重复上gydF4y2Ba\ (e_s \)gydF4y2Ba或转移gydF4y2Ba\ (e_s \)gydF4y2Ba.正确性gydF4y2Ba\ ({\ textsc {Dup}} (e_g e_s) \)gydF4y2Ba通过正确性保证gydF4y2Ba(c(e_ {g'},\ cdot)\)gydF4y2Ba的正确性gydF4y2Ba\ ({\ textsc{转让}}(e_g e_s) \)gydF4y2Ba是由两者的正确性保证的吗gydF4y2Ba(c(e_ {g'},\ cdot)\)gydF4y2Ba和gydF4y2Ba\({\textsc {best transfer}}(e_{g'}, \cdot)\)gydF4y2Ba对于每个后代边gydF4y2Ba\(例如'}\)gydF4y2Ba的gydF4y2Ba\(例如\)gydF4y2Ba.在归纳步骤中,gydF4y2Ba\ (e_s \)gydF4y2Ba难道不是叶边吗gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba根据定义,是最小值吗gydF4y2Ba\({\ textsc {spec}}(e_g,e_s)\)gydF4y2Ba,gydF4y2Ba\ ({\ textsc {Dup}} (e_g e_s) \)gydF4y2Ba,gydF4y2Ba\ ({\ textsc{转让}}(e_g e_s) \)gydF4y2Ba, 和gydF4y2Ba\ ({\ textsc{损失}}(e_g e_s) \)gydF4y2Ba(见eq。gydF4y2Ba2gydF4y2Ba).再一次,gydF4y2Ba\({\ textsc {spec}}(e_g,e_s),{\ textsc {dup}}(e_g,e_s)\)gydF4y2Ba和gydF4y2Ba

\ ({\ textsc{转让}}(e_g e_s) \)gydF4y2Ba通过正确性正确地计算gydF4y2Ba(c(e_ {g'},\ cdot)\)gydF4y2Ba和gydF4y2Ba\({\textsc {best transfer}}(e_{g'}, \cdot)\)gydF4y2Ba.正确性gydF4y2Ba\ ({\ textsc{损失}}(e_g e_s) \)gydF4y2Ba由归纳假设保证对正确性的gydF4y2Ba\(c(e_g,e_ {s'})\)gydF4y2Ba对于每条后代边gydF4y2Ba\(e_ {s'} \)gydF4y2Ba的gydF4y2Ba\ (e_s \)gydF4y2Ba.这对于总结归纳步骤gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba.的归纳步骤gydF4y2Ba\({\textsc {best transfer}}(e_g, \cdot)\)gydF4y2Ba类似于基本情况的证据。gydF4y2Ba

最后,gydF4y2BaCgydF4y2Ba(gydF4y2BaggydF4y2Ba)是物种映射的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba),这样gydF4y2BaggydF4y2Ba可以映射到任何物种gydF4y2Ba年代gydF4y2Ba.根据定义,gydF4y2Ba(C(g) = min _s {{{mathcal {C}}}}(g, s)\)gydF4y2Ba在哪里gydF4y2Ba\({{{\ mathcal {C}}}}(G,S)\)gydF4y2Ba表示物种映射的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)中,gydF4y2BaggydF4y2Ba映射到gydF4y2Ba年代gydF4y2Ba.gydF4y2Ba

考虑gydF4y2Ba\(\ min _ {e_s} c(e_g,e_s)\)gydF4y2Ba.自gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba一个物种绘制地图的最优成本是什么gydF4y2Ba\(例如\)gydF4y2Ba放在gydF4y2Ba\ (e_s \)gydF4y2Ba,这意味着的映射gydF4y2BaggydF4y2Ba来gydF4y2Ba年代gydF4y2Ba或者一个后代。如果gydF4y2BaggydF4y2Ba映射到gydF4y2Ba年代gydF4y2Ba, 然后gydF4y2Ba(C(e_g, e_s) = {{{mathcal {C}}}}(g, s)\)gydF4y2Ba.如果gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba涉及到gydF4y2BaggydF4y2Ba来gydF4y2Ba\(年代\)gydF4y2Ba哪个是他的后代gydF4y2Ba年代gydF4y2Ba,然后它会诱导丢失事件。因为损失事件具有非负成本,gydF4y2Ba\(c(e_g,e_s')\ le c(e_g,e_s)\)gydF4y2Ba,因此gydF4y2Ba\(\ min _ {e_s} c(e_g,e_s)\)gydF4y2Ba只包括的条目gydF4y2Ba\(c(e_g,e_s)\)gydF4y2Ba在哪里gydF4y2BaggydF4y2Ba映射到gydF4y2Ba年代gydF4y2Ba.因此,gydF4y2Ba\(c(g)= \ min _s {{{\ mathcal {c}}}(g,s)= \ min _ {e_s} c(e_g,e_s)\)gydF4y2Ba.gydF4y2Ba

\广场(\ \)gydF4y2Ba

引理的证明gydF4y2Ba2gydF4y2Ba

证明gydF4y2Ba

证明了的正确性gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba和gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba通过归纳gydF4y2BaggydF4y2Ba.在基本情况下,gydF4y2BaggydF4y2Ba是一片叶子,那么同色区呢gydF4y2BaggydF4y2Ba必须是gydF4y2Ba\(\ gamma(g)\)gydF4y2Ba,这两者都是gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba和gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba在第5行正确计算。在归纳步骤中,考虑一个内部顶点gydF4y2BaggydF4y2Ba.通过归纳假设,gydF4y2Ba\ ({\ textsc {syn}} (g_i \ l形”)\)gydF4y2Ba和gydF4y2Ba\({\ textsc {syn}}(g_i)\)gydF4y2Ba是正确计算的gydF4y2Ba\ (g_i \ \ {g_1里面,g_2 \} \)gydF4y2Ba和gydF4y2Ba\(\ \'\在l \)gydF4y2Ba.左子结点和右子结点的同步区域是独立选择的,总代价为gydF4y2Ba\({\textsc {syn}}(g, \ell)\)gydF4y2Ba为的左子树和右子树选择同步区域的代价之和gydF4y2BaggydF4y2Ba.如果gydF4y2Ba\ (g_i \)gydF4y2Ba是一个孩子gydF4y2BaggydF4y2Ba与同时性地区gydF4y2Ba\ \)(\拼gydF4y2Ba,然后没有gydF4y2BaRgydF4y2Ba事件诱发,成本为gydF4y2Ba\({\ textsc {syn}}(g_i,\ ell)\)gydF4y2Ba.如果gydF4y2BaRgydF4y2Ba事件是由同序区域的变化引起的,因此选择一个使选择同序区域的总代价最小的同序区域是最优的gydF4y2Ba\ (G (g_i) \)gydF4y2Ba.因此,同步区域映射的成本gydF4y2Ba\ (G (g_i) \)gydF4y2Ba带着gydF4y2BaRgydF4y2Ba活动是gydF4y2Ba\({\ textsc {syn}}(g_i)+ \ mathbf {r} \)gydF4y2Ba.的同向区域映射的代价gydF4y2Ba\ (G (g_i) \)gydF4y2Ba作为一个整体是这两种可能性的最小值,这对两个的孩子是一样的gydF4y2BaggydF4y2Ba.因此,gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba在第7行正确计算。然后,根据定义,gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba也通过采取最小值来正确计算gydF4y2Ba\({\ textsc {syn}}(g,\ ell)\)gydF4y2Ba对所有gydF4y2Ba\ (L \魔法\ \)gydF4y2Ba.gydF4y2Ba\广场(\ \)gydF4y2Ba

定理的证明gydF4y2Ba1gydF4y2Ba

证明gydF4y2Ba

首先,我们证明了正确性gydF4y2Ba\ ({\ textsc{起源}}(g) \)gydF4y2Ba.由于某种物种映射起源子树gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)与同一子树的同步区域映射独立于同一子树,对和解的最佳成本gydF4y2BaGgydF4y2Ba(gydF4y2BaggydF4y2Ba)是最佳成本gydF4y2BaCgydF4y2Ba(gydF4y2BaggydF4y2Ba)对于物种映射和最佳成本gydF4y2Ba\({\ textsc {syn}}(g)\)gydF4y2Ba对于同时性区域映射和原始事件的成本gydF4y2BaggydF4y2Ba.因此gydF4y2Ba\ ({\ textsc{起源}}(g) \)gydF4y2Ba在第2行正确计算。gydF4y2Ba

现在我们证明gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba通过诱导正确地计算gydF4y2BaggydF4y2Ba.在基本情况下,gydF4y2BaggydF4y2Ba是一片树叶,那么gydF4y2BaggydF4y2Ba必须有一个已知的同线区域gydF4y2Ba\(\ gamma(g)\)gydF4y2Ba.因此gydF4y2Ba\({\ textsc {null}}(g)= \ infty \)gydF4y2Ba如在第4行上计算的。在归纳案例中,考虑内部顶点gydF4y2BaggydF4y2Ba.通过归纳假设,gydF4y2Ba\ ({\ textsc{零}}(g_i) \)gydF4y2Ba计算正确吗gydF4y2Ba\ (g_i \ \ {g_1里面,g_2 \} \)gydF4y2Ba.对于每个子节点,我们需要考虑两种情况,因为它既可以诱导一个起源事件,也可以保持未分配给任何真实同线区域。因为我们已经知道gydF4y2Ba\({\ textsc {Origin}}(g_i)\)gydF4y2Ba和gydF4y2Ba\ ({\ textsc{零}}(g_i) \)gydF4y2Ba计算正确,取最小值在两种情况下产生分配每个孩子的最优成本和两个孩子的成本之和是分配的最优成本gydF4y2BaggydF4y2Ba到未知共线区域gydF4y2Ba\ \ (*)gydF4y2Ba.因此gydF4y2Ba\({\ textsc {null}}(g)\)gydF4y2Ba被正确地计算出在第6行。gydF4y2Ba

由于基因树的根既可以映射到未知的同线区域,也可以映射到实际的同线区域,因此我们在两种情况下最小化,从而得到协调整个基因树的最优成本。使用标准的DP追溯技术,我们还可以获得最优解决方案中涉及的映射和事件。gydF4y2Ba\广场(\ \)gydF4y2Ba

定理的证明gydF4y2Ba2gydF4y2Ba

算法4的正确性是算法1的正确性证明的直接延伸,现在使用三重诱导来解释DP表中的第三参数,同时区域。然后,非二进制顶点的正确性类似地延伸到[gydF4y2Ba15.gydF4y2Ba]用于DTL模型。gydF4y2Ba

权利和权限gydF4y2Ba

开放访问gydF4y2Ba本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览gydF4y2Bahttp://creativecommons.org/licenses/by/4.0/gydF4y2Ba.Creative Commons公共领域奉献豁免(gydF4y2Bahttp://creativecommons.org/publicdomain/zero/1.0/gydF4y2Ba)适用于本文中提供的数据,除非另有用入数据的信用额度。gydF4y2Ba

重印和权限gydF4y2Ba

关于这篇文章gydF4y2Ba

通过CrossMark验证货币和真实性gydF4y2Ba

引用这篇文章gydF4y2Ba

刘,J.,Mawhorter,R.,Liu,N。gydF4y2Baet al。gydF4y2BaDTLO模型中的最大分析和解。gydF4y2Ba欧宝娱乐合法吗22,gydF4y2Ba394(2021)。https://doi.org/10.1186/s12859-021-04290-6gydF4y2Ba

下载引用gydF4y2Ba

关键字gydF4y2Ba

  • 微生物进化gydF4y2Ba
  • 系统发育树gydF4y2Ba
  • 最大的吝啬和解gydF4y2Ba