跳到主要内容

gpps:一种基于ILP的方法,用于从单细胞数据推断具有突变丢失的癌症进展

摘要

背景

癌症进展重建是从系统发生学领域所产生的一个重要发展。在这种情况下,系统发育的较进化史提供了一些依赖于用于获取数据的技术,独特的方面重建来分析:单细胞DNA测序数据有很大的特殊性,但适度的假阴性和遗漏值率影响.此外,最近有一些回复突变的证据癌症:这种现象目前被广泛忽略。

结果

我们提出了一个新工具,GPPS.,从单细胞测序数据重建肿瘤系统,允许每个突变在最多的固定次数中丢失。单细胞中的一般例异性系统发育(GPPS.)工具是开源的,可以在https://github.com/algolab/gpps.

结论

GPPS.通过向单细胞数据提出新的进展模型来提供对肿瘤内肿瘤内异质性分析的新见解。

背景

系统发育学是研究如何重建物种进化史的领域,有着丰富的文献[1].然而,系统发育学专注于推断来自来自现存物种或个人的数据的历史,假设祖先物种/个人是不可能或难以获得的。

这是与癌症进展重建的一个重要区别,因为在这种情况下,我们通常从所有可能的物种(或更好的,从物种的概念类比,即克隆)获得数据。癌症的克隆理论[2]为癌症包括几个克隆,即携带相同突变的细胞的家庭,即受到导致克隆扩展选择压力的公设。在这种情况下,克隆扮演经典系统发育的物种相同的作用。

从患者获得癌症数据的最简单方法是通过活组织检查,其中提取来自肿瘤的样品,通常使用本体DNA测序。该程序相当便宜,但获得的样品不是非常特异性:散装序列样品中的细胞通常属于几个克隆。此外,我们不知道克隆方面的样品的组成。尽管如此,通过对准从样品中提取的读取,我们可以获得(大约),对于每种突变,携带这种突变的样品中的细胞部分。最近,已经开发了许多计算方法,用于分析本体测序数据,其目的是推断肿瘤亚间分解和重建肿瘤系统(树木)[3.-12.]但几乎所有这些都模拟肿瘤进展作为突变在无限位点的突变的积累,这是不允许复发突变和突变损失。请注意,由于读取的覆盖范围并不完全均匀,因此我们获得的分数只是真实值的近似值。同时,给定足够大的覆盖范围,错误很小,获得数据的程序是标准的,并且相当便宜。

另一种替代技术是单细胞DNA测序(SCS):在这种情况下,我们能够获得每一个细胞携带的突变集。然而,这种技术目前是昂贵的,并不是很可靠,因为它产生的数据集带有大量的噪声,包括等位基因的退出(假阴性)和丢失的值,由于缺乏读取覆盖,以及假阳性调用——尽管这种事件非常罕见。另一个噪声源是由双峰引起的,双峰是由两个独立的单元发出的信号,而这些信号被错误地推断为来自单个单元:我们指出后一个问题正在消失,可以通过计算来解决。尽管如此,我们仍然需要有效的方法来处理SCS技术目前产生的这类数据,通过克服数据中的噪声带来的困难。

为此目的开发了各种方法[13.-15.],它们中的一些将结合两种SCS和数据VAF [的混合方法16.-19.].如前所述,这些方法大多依靠无限站点假设(ISA)20.],这使得最多一次在系统发生中获得突变,从未丢失。这种简化的假设还导致计算易易诊的进化模型,称为完美的系统发育[21.].然而,最近的一些研究集中于癌症数据发现线索表明ISA并不总是持有[22.-24.,因此我们可能需要在这种情况下放弃严格的ISA。在 [23.]作者发现,树的几个分支上的大删除可以跨越共享轨迹,因此可以多次独立地删除给定的突变。在 [24.]作者指出,在某些情况下,癌症基因组中的纯合缺失甚至可以提供选择性生长优势。获得性突变的每一个(独立)缺失都会使我们远离ISA。一些最新的方法,如TRaIT[16.]和奇异[15.]允许缩短突变。

Dollo Model [25.进化]恰好为一些情况下,一个完美的系统发育并不代表实际的数据而设计的。更准确地说,Dollo模型需要将正好一次在整个历史分析所获取的各突变,同时消除对的次数,一个突变可能会丢失所有限制。该Dollo模型以及在Dollo(K.)的变种,其中每个突变最多可以丢失K.次数,最近在文献中介绍了肿瘤进展推论的算法方法[12.26.].由于在完整的二进制矩阵上发现完美的系统发育可以在线性时间来解决[21.],几个工具已纳入该模型以减少运行时间[27.,但是单单元数据存在很大一部分丢失的数据,这使得问题更加困难。

当输入是不完整的矩阵时m,这个问题是确定是否存在有指导的根的系统发生T.服从Dollo(1)模型和说明m是NP完全[28.那篇论文中的证明实际上是在广义特征上的有向完美系统发育的限制上,但它立即注意到,这些广义特征对应于从一个不完全二进制矩阵中找到一个有向Dollo(1)系统发育。另一方面,当考虑标准二进制字符时,只允许字符增益,并且每个字符恰好有一个增益,即使对于不完全矩阵,找到一个有向完美系统发生的问题也可以在多项式时间内解决[29.].

此外,我们关注的是Dollo模型,它比完美系统发生模型(Dollo(0)是完美系统发生)更一般化,计算成本更高,因此需要更复杂的算法。

在本文中,我们提出GPPS.,将整数线性编程(ILP)与山攀爬方法相结合的方法来推断出可包括有限量的突变损失的肿瘤进展,来自单细胞DNA测序数据。存在当代和独立的问题方法在[30.]在作者提出了一种ILP制定和解决问题的切割面的策略。

结果

真实癌症数据的结果

我们测试了GPPS.在呃+来自[31.]由40个细胞突变组成47个细胞,估计假负率为9.73%,假阳性率为1.24×10-6和13.83%(基于从中获得该数据SCS技术的公知的错误率)丢失率;从[JAK2阴性骨髓增殖性疾病数据32.],由18个突变超过58个细胞,用7.63%的估计的假阴性率,为2.02×10假阳性率-5缺失率为44.82%。最后,我们测试了GPPS.患者4的儿童急性淋巴细胞白血病资料[33.]由跨越142个细胞的77个细胞突变组成,估计的假负率小于30%和零缺失率。由于测序纸中提出的树木被手动策划并具有高质量,因此我们认为这是一个很好的基准。

数字1显示了树的推断GPPS.对ER+乳腺癌患者,在该研究中假设的树形结构是正确推断的,以及驾驶员突变的放置FBN2,CAPS3和PIK3C;GPPS.检测到7个损失,全部放在叶子上。数字2显示jak2阴性的骨髓增生性肿瘤患者推断的树,与之前的数据集相似GPPS.正确地推动克隆结构并正确地放置SESN2,TOP1MT和ST13。与之前的情况一样,它是叶子的8个损失。最后,图。3.显示了推断为儿童急性淋巴细胞白血病的树。再一次GPPS.正确推断测序研究中提出的克隆史;此外,它还正确地推断出四个亚克隆种群的驱动突变的位置,如图粗体所示。其中3个突变以叶片的形式存在,1个突变以中间步骤ANP32A-IT1存在于两个不同的亚克隆中。

图1
图1

树推断的GPPS.对ER+乳腺癌患者来自[31.].红色的节点表示突变的缺失,粗体突出显示的突变是原始测序研究中表示为驱动的突变。由于空间限制,树中的线性路径已被折叠

图2
图2

树推断的GPPS.对于jak2阴性肌酚肿瘤患者,[32.].红色的节点表示突变的缺失,粗体突出显示的突变是原始测序研究中表示为驱动的突变。由于空间限制,树中的线性路径已被折叠

图3
图3

树推断的GPPS.对于儿童急性淋巴细胞白血病患者4从[33.].红色的节点表示突变缺失,粗体突出显示的突变是原始测序研究中表示为驱动突变或克隆突变的突变。由于空间限制,树中的线性路径已被折叠

发现溶液假设是一种Dollo(1)个系统发育模型。此外,在最后一个数据集中,我们强迫解决方案最多5个损失,而没有将这种限制应用于其他两个。

模拟数据的结果以及与其他方法的比较

我们在已知基本事实的模拟数据上测试了我们的方法。然而,我们记得,有可能,一个完全不同的树获得的可能性比通过模拟得到的树更好。这个问题本质上是不可避免的,因为生成一个进程是对应的SCS输入矩阵的唯一解决方案,需要向树和矩阵中添加工件。由此产生的实例甚至不可能满足对癌症进展的基本假设。

生成模拟数据

给定一定数量的亚克隆S.我们生成了一个随机的树S.通过添加一个新节点作为一个随机存在的节点的子节点。每一个m突变\ \ (q_{1},点,q_ {M} \)然后,随机均匀,分配给其中一个S.一世积累。我们最多允许一个固定的数字K.在每个克隆树缺失的。所以K.随机向树中添加新节点,步骤如下:19.27.].然后将突变分配给每个突变K.新节点,通过随机地均匀地采摘,这是影响的节点的父节点和其突变之一尚未已经选择作为删除。

获取该基因型的基因型谱N细胞,我们随机分配每个细胞到一个节点,并从克隆树中获得它的轮廓(独立和均匀地重复)。最后,为了模拟数据中的噪声,我们用概率将0项翻转为1β模拟假阳性和概率从1到0的条目α.来模拟假阴性。此外,每个条目都有一个概率γ.成为一个缺失的条目。所有错误和缺少值都是均匀且独立分布的,而无需重复。我们模拟了一个数据集,其中子句数量固定为9,细胞数和突变分别为100和30;细胞上突变的比例类似于最近研究中使用的比率[19.30.].最后,漏报,误报和遗漏值分别为0.1,10-4和0.1。这三个值是根据我们正在模拟的SCS技术的已知错误率选择的。对于每个模拟,最多可能丢失5个突变,而GPPS.用美元(1)模型运行。

模拟数据评价

我们测量的精确度GPPS.各种研究中使用的两种标准癌症进展措施[13.17.],定义如下:

  • Ancestor-Descendant准确性:该方法考虑所有突变对(Xy)在地面真相树中的祖先-后代关系中T..对于每一个这样的对,我们检查祖先-后代关系在推断树中是否守恒一世.分数是由保存关系的f值来定义的一世

  • 不同谱系准确性:类似于以前的措施,它考虑了所有的突变(Xy)不在祖先 - 后代关系中,即,在不同的分支中T..分数是由中保存关系的f值给出的一世

请注意,前面的指标都没有说明ISA违规。我们决定比较我们的ILP(单独)和GPPS.反对scite [13.]和奇异[15.].OncoNEM [14.]被排除在外,因为它推断出的细胞谱系级数,而不是突变的进展,因此,不可能我们的预测与他们的比较;此外OncoNEM未能在数据集一样大在仿真中所使用的那些运行。所有的工具都用假阳性和假阴性率的正确值喂养。

数字4.显示了两种工具之间的平均精度比较GPPS.稍性能优于赛特在这两个措施。在另一方面,SiFit达到较低的精度,这可能是由于在模型中的支化的倾向。虽然HC改善只是轻微的ILP的平均精度,处理异常,尤其是在第二项措施。此外,如图中所示。5.,HC提高了所获得的溶液的日志似然值。如已经陈述的那样,即使它们推断出错误的进化模型,也没有任何准确度考虑缺失的存在,因此可以通过这些准确度措施来惩罚。

图4
图4

精度的结果为模拟数据,在所描述的“生成模拟数据“ 部分。我们的ILP,GPPS.和赛特都比较接近的祖先子孙和不同谱系的措施,同时SiFit达到精度较低。考虑到所有这些措施的准确性忽略的缺失是很重要的。最后,我们还报告的所有工具运行时间

图5
图5

对数似然为ILP比较GPPS.在模拟数据上。有明确的改善GPPS.由于整个方法的似然值总体上较高,因此比单独使用ILP得到的结果要高

讨论

在本文中,我们提出了GPPS.:一种准确的工具,用于从SCS数据中推断肿瘤内进展和亚基组成,明确地纳入突变损失的可能性。最近建立了对允许一些损失的模型的需求[22.],其中的案例仅显示了少数突变损失的证据,这证明了我们对Dollo(1)模型的关注是正确的。

我们已经证明了这一点GPPS.能够略微胜过所有其他方法可用。同时,目前可用的质量措施偏靠突变的损失,因此更完整的比较是绘制明确的结论之前需要。

此外,我们已经示出了将爬山步骤与ILP方法相结合的有用性,因为该组合能够产生更好的缺失结果,同时去除异常值。该管道的额外好处是ILP方法可能会在扩大到大型情况下存在一些问题。我们在大于当前技术可以提供的情况下进行了一些初步测试,并且这些测试没有显示任何问题。尽管如此,我们还包含了一个超时选项GPPS.,即使ILP组件在高度次优的某些解决方案中停止,它也能够计算解决方案。

GPPS.似乎掌握了一个良好的平衡,因此更深入调查这一点,相关方法是一个有价值的努力。

在真实数据,GPPS.执行好,它正确地推断出预期的系统发育树结构,以及司机突变。我们认为,该模型底层GPPS.这是一个很好的平衡,因为它很简单——只有两个参数α.β这分别是假的阳性和假负率 - 同时实现了良好的效果。仍然是参数的实际值α.β通常是未知的,并影响总体解决方案的计算GPPS..因此,研究新程序以推断出最佳的先前值是有趣的α.β

结论

至少有两个可能的方向来推广和扩展模型和实验部分。首先,我们可以在更一般的模型下比较工具,如Dollo(K.)对于更大的值K.- 请注意,此类调查主要是理论兴趣,因为我们没有本质上的证据。其次,我们可以扩展参数空间,例如为每个小区和/或突变允许不同的误报和假负速率。一方面,将我们的ILP配方适应这种情况,简单地简单;另一方面,引入太多参数使模型更少提供信息。因此,我们需要找到有关哪些新参数的正确权衡。

方法

在最抽象的制剂中,我们可以将癌症进展重建问题视为基于性状的文学重建问题[34.,每个字符代表细胞中特定突变的存在/不存在。

对问题的输入是一个不完整的二进制矩阵一世,其中入境一世[Cm=0表示单元格C没有突变吗m, 尽管一世[Cm] = 1表示该单元C有突变m. 最后,我们用一世[Cm]= ? 没有足够的信息说明是否存在突变m在细胞C.我们记得关于细胞中突变存在的不确定性是测序中覆盖不足的结果,因此它是不可避免的。

然而,不确定性并不是排序过程中唯一的问题:输入矩阵一世也包含假阳性和假阴性。我们假设这些错误独立且一致地发生在所有(已知)的条目上一世.也就是说,E.为预测矩阵,即算法计算的不缺值的二进制矩阵。在这种情况下,α.表示假负率和β为假阳性率。换句话说,对于每一对(Cm),

  • P.一世[Cm] = 0 |E.[Cm] = 0)= 1-β

  • P.一世[Cm) = 1 |E.[Cm] = 0)=β

  • P.一世[Cm) = 1 |E.[Cm] = 1)= 1-α.

  • P.一世[Cm] = 0 |E.[Cm] = 1)=α.

我们的目标是找到一个矩阵E.(1)对应于该组细胞上的系统发生,并且(2)最大化可能性

$$ P(I | E)= \ PROD \ limits_ {C} \ PROD \ limits_ {M} P(I [C,M] | E [C,M])$$
(1)

所观察到的矩阵的一世[13.].换句话说,我们想要找的发展史,由矩阵表示E.,最大化观察到的矩阵的可能性一世[13.].我们指出,输入矩阵的未知条目的值不会因素到目标函数中。

系统发育是有根的标记树T.,其中标签集对应突变得失集。国家S.X)树叶的XT.被定义为所获取的突变集并且不会在路径上丢失T.X.我们说这棵树T.编码矩阵E.如果存在映射σ.一排E.T.这样的每一行R.E.,因此CR.) =S.σ.R.)) 在哪里CR.)是一组列在1 inR.,σ.R.)表示叶子T.有关联R.通过σ..换句话说,在树里T.我们假设单元格C已从亚贫困中提取σ.C).

我们可以表达矩阵的可能性E.如情商。1- 由于涉及的概率在[0,1]中,移动到形式的(线性)对数似然最大限度的目标函数是方便的:

$$ \ {文本最大} \总和\ limits_ {C} \总和\ limits_ {M} \的log P \左(I [C,M] | E [C,M] \右)$$
(2)

演化模式

Dollo Parimony规则可以被解释为在进化轨迹中具有相同突变的不可能性。该规则可以在系统发生树模型中翻译,作为任何单一突变的独特引入,但这种突变的任何缺失。

从一个角度算法点,系统发育重建与Dollo进化模型是一个NP完全问题[35.36.].可以通过限制每个字符的删除次数来获得模型的受限制版本的分层链。我们表示为dollo(K.)一种进化模型,在该模型中,每一个突变可以被精确地获得一次,最多可能丢失K.时代。以这种方式美元(0)和Dollo(1)对应于完美[21.和持久的[37.-39.]系统发生模型。在Dolleo的树生成过程中(K.) 模型 (K.>0)我们需要通过添加代表突变丢失的节点(即标记的节点)来增加代表癌症进展的完美系统发育\(m^{-}{l}\),代表潜在的损失。观察损失可以出现在任何一个K.副本m一世, 1≤一世≤.K., 的m而的损失排序是不相关的。叶的状态X是一组突变m那,在从根到的路径上X,已经获取 - 路径上有标注为顶点m+-但从未丢失-路径没有标记顶点\ (m_{我}^ {-}\).我们强调,当引入缺失时,代表给定解决方案的可行系统发生集不再是唯一的,就像在完美系统发生的情况下一样-见图。6.例如,

图6.
图6

解释相同二进制矩阵的两种Dolleo Phylogenies的例子。重要的是要注意突变的祖先顺序C一种B.倒置,但两棵不同的树木可以同样地解释输入二进制矩阵。事实上,在Dollo Phylogyy中,可以倒置两个突变的顺序,并且由于引入缺失,它们都可以对给定输入进行正确的解决方案

确切的固定参数的算法,其中,参数是字符数,用于测试的二进制矩阵是否是一种持久性模型,即Dollo(1)模型已被提出在[37.],同时研究了一些多项式时间可解的限制条件[40].测试是否为二进制矩阵一世在Dollo下有一个系统发展史(K.)已通过ILP对模型进行了攻击K.= 1 [41.]和一般的K.[12.]. 请注意,ILP处于活动状态[41.]基于之前通过ILP完成二元矩阵缺失项的工作,以获得完美的系统发育[42.].我们将利用在后者的配方[12.,以及对不完全矩阵的扩展[43.[描述了单细胞数据肿瘤系统重建的ILP方法。

我们将利用后一种制定来描述单细胞数据肿瘤系统重建的ILP方法。

首先,我们回顾一个众所周知的完美系统发育描述完整的二进制矩阵m如果只有它没有,有一个定向的完美系统发育相互冲突的列对-如果两列包含所有三种配置(0,1),(1,0),(1,1)-导致所谓的禁止矩阵,则两列冲突[21.].

ILP配方不完整矩阵(42.]基本上由引入的二进制变量对每个缺少的条目,以及描述朝着最小化冲突的对目标的一组约束的。

使这种方法适应持续的文学原理[41.]到我们的设定- Dollo(K.),我们需要一个属性(参见图。7.为了插图):

图7.
图7

一个输入矩阵m(左上),一个Dollo(2)在完成m*(中左)及其相应的系统发育树T.(右上)。相应的扩展矩阵mE.(左下角)和完成\(m_ {e} ^ {*} \)(右下角)根据命题1.在树中,粗体字符对应于每个节点和其父之间的更改

命题1

[12.] 让m是一个不完全二进制矩阵。让mE.是(不完整的)扩展二进制矩阵m如下:每个条目m[一世j]我们有入口mE.[一世j+] 和K.条目\(M{e}\左[i,j{l}^{-}\右]\)(1)≤L.≤.K.(1) ifm[一世j) = 1然后mE.[一世j+) = 1,\(M_{e}\left [i,j_{l}^{-}\right] = 0\)1≤L.≤.K.,(2)如果m[一世j] = 0或m[一世j]是缺失的,然后是条目\ (M_ {e} \离开(i, j ^{+} \右],M_ {e} \离开(我,j_ {l} ^{-} \右]\)都是缺失的。然后m有一个完成m*有Dollo (K.)系统发育当且仅当mE.有一个完成\(m ^ {*} _ {e} \)具有完善的系统发育,从而\(m ^ {*} _ {e} \ left [i,j ^ {+} \ rectle] - {\ sum \ nolimits} _ {l \ le k} m ^ {*} _ {e} \ left [I,J_ {L} ^ { - } \右] = m \ left(i,j \右)\)如果m一世j{0,1}\(M^{*}{e}左[i,j^{+}\right]\ge{\sum\nolimits}{l\lek}M^{*}{e}\left[i,j{l}{-}\right]\)如果m一世j) 不见了。

我们的主要贡献是结合了[12.]与来自单细胞数据肿瘤完美重建系统发育的定义,以获得新的ILP制剂,然后用爬山方法增强它,用于从并入模型中的突变损失单细胞数据肿瘤系统发育重建。

ILP制定

在本节中,我们提出我们的用于从单细胞数据肿瘤系统发育重建ILP制剂。我们记得,这个问题的输入是一个不完整的矩阵一世表示为一组二进制变量一世Cm)这样的一世Cm如果细胞)= 1C有(根据输入数据)突变m, 尽管一世Cm)= 0,如果细胞C有没有(根据输入的数据)突变m.注意,输入数据是不完整的,因此可以使用对(Cm)使得变量一世Cm) 不存在。

的变量E.Cm+),\(E \左(C,M_ {I} ^ { - } \右)\)对我们要计算的扩展矩阵进行编码,这将满足命题1。与变量不同一世(·,·),对于每对(Cm),所有变量E.Cm+),\(E \左(C,M_ {I} ^ { - } \右)\)存在。

我们引进一些辅助变量,在使ILP制定更容易帮助阅读。二进制变量FCm)在预测矩阵,小区中指示IFC有突变m.由命题1,FCm)= 1如果只有E.Cm+)= 1和所有\(E \左(C,M_ {I} ^ { - } \右)\)等于零。而且,真实变量W.Cm表示…的概率E.Cm)给一世Cm) -实际值的公式取决于可能的情况,即我们是否有一个真阳性,一个真阴性,一个假阳性,和一个假阴性。

为了确定两列是否冲突,我们引入了最终的二进制变量B.P.问:一种B.),其对于每对列(定义P.问:)对于每个可能的一对值(一种B.{(0, 1),(1,0)、(1,1)}。更准确地说,B.P.问:一种B.)表示对(P.问:)列存在细胞C在哪里E.CP.) =一种E.C问:) =B..请注意,两列P.问:是相互冲突的iffB.P.问:, 0,1) +B.P.问:, 1,0) +B.P.问:,1,1)= 3。我们现在准备介绍我们使用的ILP配方C表示一组单元(即输入矩阵的行一世),m表示突变(即,一世),m*表示突变的可能收益或损失的集合。

最后,目标函数是推断矩阵的可能性的对数F给定输入矩阵一世- 这允许将目标函数表达为求和而不是产品。此外,请注意均衡。(3.)是日志的总和W.Cm)术语显然不是线性函数。但是eqs。(5.) 和 (6.)表明,W.Cm)实际上是一种线性函数FCm): 自从FCm)是一个只能为0或1的二进制变量,一个简单的操作允许我们替换logW.Cm)线性函数FCm) - 省略了清楚起见这样的功能。

$$ \ {开始阵列} {* {20}升} \最大\总和\ limits_ {C \用C} \总和\ limits_ {米\以M} \日志瓦特(C,M),\文本{受}&\ {端阵列} $$
(3)
$$ \ begin {array} f(c,m)= e \ left(c,m ^ {+} \右) - \ sum \ limits_ {i \ le k} e \ left(c,m_ {i} ^ { - } \右)&\ \ forall c \在c,\ m \中in m \ nod {array} $$
(4)
$$ \ {开始阵列} {* {20} L} W(C,M)= \左(1 - \阿尔法\右)F(C,M)+ \测试\左(1 - F(C,M)\右)\四&\文本{如果} I(C,M)= 1 \ {端阵列} $$
(5)
$$\begin{array}{*{20}l}w(c,m)=\alpha F(c,m)+\left(1-\beta\right)\left(1-F(c,m)\right)\quad&\text{if}I(c,m)=0\end{array}$$
(6)
数组$ $ \开始{}{l * {20}} B (p, q, 0,1) \通用电气E (c, q) - E (c、p)给所有c \ \四& \ \ c、p, q在M ^ \ \{*} \{数组}$ $
(7)
$$ \ begin {array} {* {20} l} b(p,q,1,0)\ ge e(c,p) - e(c,q)\ quad&\ quad&\ \ forall c \ in c,\ p,q \在m ^ {*} \ neg {array} $$
(8)
$$\begin{array}{*{20}l}B(p,q,1,1)\ge E(c,p)+E(c,q)-1\quad&\\forall c\in c\p,q\in M^{*}\end{array}$$
(9)
数组$ $ \开始{}{l * {20}} B (p, q, 0,1) + B (p, q, 1,0) + B (p, q, 1, 1) le 2 \ \四& \原则,p, q \ M ^{*} \{数组}$ $
(10)
$$ \ begin {array} {* {20} l} b \ left(\ cdot,\ cdot,\ cdot,\ cdot \ oled),f \ left(\ cdot,\ cdot \ oled),e \ left(\ cdot,\ cdot \右)&\ in \ {0,1 \} \ notag \ neg {array} $$

配方中的变量总数和约束是O.Nm+m2),O.Nm2) 分别。

最近的方法[44.假设模拟假阳性和假凸起的错误发生是不现实的,与所有单元的固定概率一样独立,因此建议使用每个不同的值。虽然我们的论文未探讨这一点,但我们注意到扩展上述ILP制剂以引入非统一值(其仍然作为输入提供的)是相当普遍的:我们将约束(5)和(6)更改为使用α.CmβCm代替α.β.自新价值α.CmβCm仍然是用户给定的常量,配方仍然相同。

软件实现:GPPS.

我们的办法是用Python已经实现,产生的程序调用GPPS..该程序生成ILP公式,并将其输入ILP求解器以得到最优解。在我们的实验中,我们使用Gurobi 8.0作为ILP求解器。此外,我们还引入了一个运行超时,因为生成的ILP问题可能很大,解决它可能需要相当长的时间。我们利用了Gurobi可以在任何时候被停止这一事实,它返回了迄今为止计算出的最佳可行解决方案。因此,施加一个超时允许ILP解算器计算一个总误差很小的解。

由于ILP与超时的ILP产生的解决方案将是次优,我们使用了本地搜索算法,继续从ILP的输出开始探索解决方案空间。我们实施了标准的变化爬山(HC)搜索 - 其中从起点迭代地移动到所有周围的邻居优化一个给定的功能。最佳得分邻居被设定为新的起点和过程继续,直到没有新的解决方案,改善了目前最好的一个。

在我们的案例中,我们说一棵树\ (\ widetilde {T} \)是A.邻居的树T.如果存在两个节点V.T.使得,通过修剪植根于子树通过将它重新连接为孩子V.,我们得到的树\ (\ widetilde {T} \)- 调用这种操作子树修剪和重新连接,见图。8..在移动的子树T.对于树的另一部分,表示突变缺失的节点可能不再适用。然而,在这种情况下,所有这样的节点都可以简单地收缩,即通过删除节点并从其父节点添加一条边到其子节点(如果它有一条边,则这条边必须是唯一的)。例如,如果F在图中左边的树上。8.反而是损失B.-突变B.,在subtree Prune和Reattach操作之后,这将不再适用于右边的子树,因为发生了突变B.不再是这个子树上面获得的 - 只要删除这个节点B.-.应当指出,由于亏损节点只删除,Dollo(K.一棵树的)财产在执行此操作被保留。

图8.
图8

树(左),并通过我们修剪植根于子树子树修剪,并重新运行它的邻居(右)并将其重新连接为孩子V..注意,不要将此操作与众所周知的操作混淆子树修剪和令人遗憾手术 [45.]对于二元叶标记的树木

因为,根据子树修剪和重新附着操作,树的邻居是由所有可能的节点对生成的树集V.T.,这个邻域的大小是T.,这在计算上是不可行的。因此,我们通过生成N在每次迭代的出发点随机的邻居,而不是探索周围的所有的解决方案,然后停药后的算法,m迭代,Nm是用户定义的参数。因此,该过程的最终结果是该修饰的HC阶段探索的最佳解决方案。

可用性数据和材料

我们在当前研究中使用的数据集在以下网站公开https://github.com/algolab/gpps.

缩写

脱氧核糖核酸:

脱氧核糖核酸

VAF:

变异等位基因频率

ILP:

整数线性编程

HC:

爬山

SCS:

单细胞测序

ISA:

无限网站的假设

工具书类

  1. 1

    Semple C, Steel m。牛津大学数学及其应用系列讲座。英国牛津:牛津大学出版社;2003.

    谷歌学术

  2. 2

    Nowell PC。肿瘤细胞群的克隆演化。科学(纽约,N.Y.)1976;194(4260):23-28。

    CAS文章谷歌学术

  3. 3.

    Strino F, Parisi F, Micsinai M, Kluger Y. Trap:一种树状方法用于识别亚克隆肿瘤成分。核酸Res. 2013;41(17): 165。https://doi.org/10.1093/nar/gkt641.gkt641 (PII)。

    文章CAS谷歌学术

  4. 4.

    娇W,Vembu S,Deshwar AG,斯坦L,从单核苷酸体细胞突变的肿瘤莫里斯Q.推断克隆演变。欧宝娱乐合法吗BMC生物信息学。2014;15(1):35。https://doi.org/10.1186/1471-2105-15-35

    PubMed.公共医学中心文章CAS谷歌学术

  5. 5.

    Hajirasouliha I, Mahmoody A, Raphael BJ。从高通量测序数据分析肿瘤内部异质性的组合方法。生物信息学。2014;30(12): 78 - 86。https://doi.org/10.1093/bioinformatics/btu284

    文章CAS谷歌学术

  6. 6.

    元K,Sakoparnig T,Markowetz F,Beerenwinkel N. Beakphylogy:重建肿瘤内部文学的概率框架。基因组Biol。2015;16(1):36。https://doi.org/10.1186/s13059-015-0592-6

    PubMed.公共医学中心文章谷歌学术

  7. 7.

    Popic V,Salari R,Hajirasouliha I,Kashef-Haghighi D,West RB,Batzoglou S.多样本癌症谱系的快速和可扩展推断。基因组Biol。2015;16(1):91。https://doi.org/10.1186/s13059-015-0647-8.647 [PII]。

    PubMed.公共医学中心文章CAS谷歌学术

  8. 8.

    Malikic S,Mcpherson AW,Donmez N,Sahinalp CS。使用系统发育的多种肿瘤样品中的克隆性推断。生物信息学。2015;31(9):1349-56。https://doi.org/10.1093/bioinformatics/btv003

    CASPubMed.文章谷歌学术

  9. 9.

    El-Kebir M,SATAS G,Oesper L,Raphael BJ。使用多状态完美的系统发育混合物推断肿瘤的突变历史。细胞系统。2016;3(1):43-53。https://doi.org/10.1016/j.cels.2016.07.004

    CASPubMed.文章谷歌学术

  10. 10.

    Marass F,Mouliere F,Yuan K,Rosenfeld N,Markowetz F.一种克隆解卷积的系统发育潜在特征模型。Ann appl stat。2016;10(4):2377-404。https://doi.org/10.1214/16-AOAS986

    文章谷歌学术

  11. 11.

    SATAS G,Raphael BJ。使用树限制的重要抽样肿瘤系统发育推论。生物信息学。2017年;33(14):152-60。https://doi.org/10.1093/bioinformatics/btx270

    文章CAS谷歌学术

  12. 12.

    Bonizzoni P,Ciccolella S,Della Vedova G,Soto M.除了完美的系统发育:通过ILP的多样性系统发生重建。在:第8届ACM生物信息学,计算生物学和健康信息学国际会议的会议记录,ACM-BCB'17。纽约,纽约,美国:ACM:2017.1-10。https://doi.org/10.1145/3107411.3107441

    谷歌学术

  13. 13.

    雅恩K,Kuipers在Ĵ,Beerenwinkel N.树推断为单细胞的数据。基因组医学杂志。2016;17(1):86。https://doi.org/10.1186/s13059-016-0936-x

    PubMed.公共医学中心文章CAS谷歌学术

  14. 14.

    从单细胞测序数据推断肿瘤进化。基因组医学杂志。2016;17(1): 69。https://doi.org/10.1186/s13059-016-0929-9.

    CASPubMed.公共医学中心文章谷歌学术

  15. 15.

    Zafar H,TZEN A,Navin N,Chen K,Nakhleh L. Sifit:在有限场模型下从单细胞测序数据推断肿瘤树。基因组医学杂志。2017;18(1):178。https://doi.org/10.1186/s13059-017-1311-2

    PubMed.公共医学中心文章谷歌学术

  16. 16.

    Ramazzotti D, Graudenzi A, De Sano L等。欧宝娱乐合法吗BMC生物信息学。2017;20:210。https://doi.org/10.1186/s12859-019-2795-4

    文章谷歌学术

  17. 17.

    来自单细胞和批量测序数据的亚克隆肿瘤进化的综合推断。Nat Commun。2017;10:2750。https://doi.org/10.1038/s41467-019-10737-5

    文章CAS谷歌学术

  18. 18.

    Salehi S, Steif A, Roth A, Aparicio S, Bouchard-Côté A, Shah SP. ddclone:从单细胞和大体积肿瘤测序数据对克隆群体的联合统计推断。基因组医学杂志。2017;18(1): 44。https://doi.org/10.1186/s13059-017-1169-3

    PubMed.公共医学中心文章CAS谷歌学术

  19. 19.

    Malikic S,Mehrabadi Fr,Ciccolella s,Rahman Mk,Ricketts C,Haghshenas E,Seidman D,Hach F,Hajirasouliha I,Sahinalp SC。PHISCS:一种通过整合使用单细胞和散装测序数据诱导肿瘤肿瘤发育重建的组合方法。Genome Res。2019年;29(11):1860-77。https://doi.org/10.1101/gr234435.118.访问了08年1月20日。

    CASPubMed.公共医学中心文章谷歌学术

  20. 20.

    由于突变的稳定磁通保持在一个有限的人口杂合核苷酸位点的木村M.数。遗传学。1969年;61(4):893-903。

    CASPubMed.公共医学中心谷歌学术

  21. 21.

    进化树的高效推理算法。网络。1991;21:19-28。

    文章谷歌学术

  22. 22.

    Kuipers J, Jahn K, Raphael BJ, Beerenwinkel N.单细胞测序数据揭示了肿瘤生活史中广泛的复发和突变缺失。基因组研究》2017年;27日(11):1885 - 94。https://doi.org/10.1101/gr220707.117http://genome.cshlp.org/content/early/2017/10/13/gr220707.117.full.pdf+html.

  23. 23.

    布朗D、斯梅茨D、斯凯利B、拉西蒙特D、斯扎斯AM、阿德内特P-Y、罗瑟夫、鲁亚斯G、纳吉齐、法拉戈兹、托克斯A-M、潮湿M、森特姆尔托尼G、乌德瓦尔赫利N、佐波里G、普斯泰L、皮卡特M、库尔卡J、兰布雷切茨D、索蒂里欧C、德斯米德C。使用体细胞突变和拷贝数畸变对乳腺癌转移进展进行系统发育分析。纳特公社。2017; 8:14944.文章。

    PubMed.公共医学中心文章谷歌学术

  24. 24.

    Bignell GR、Greenman CD、Davies H、Butler AP、Edkins S、Andrews JM、Buck G、Chen L、Beare D、Latimer C、Widaa S、Hinton J、Fahey C、Fu B、Swamy S、Dalgliesh GL、Teh BT、Deloukas P、Yang F、Campbell PJ、Futreal PA、Stratton先生癌症基因组突变和选择的特征。自然。2010; 463:893–8.

    CASPubMed.公共医学中心文章谷歌学术

  25. 25.

    Rogozin I, Wolf Y, Babenko V, Koonin E. Dollo parsimony与基因组进化重建:牛津大学出版社;2006.1)引文25是一本书的一个章节,没有指定出版商的位置。

  26. 26.

    Ciccolellla S,Ricketts C,Soto Gomez M,Patterson M,Silverbush D,Bonizzoni P,Hajirasouliha I,Della Vedova G.推断癌症进展从单细胞测序,同时允许突变损失。生物信息学。2018;BTAA722。https://doi.org/10.1093/bioinformatics/btaa722

  27. 27.

    Malikic S,Jahn K,Kuipers J,Sahinalp SC,Beerenwinkel N.从单细胞和散装测序数据的亚克肿瘤演化的一体化推理。NAT Communce。2019年;10(1):1-12。https://doi.org/10.1038/s41467-019-10737-5访问了08年1月20日。

    CAS文章谷歌学术

  28. 28.

    贝纳姆C,卡纳安S,帕特森男,WARNOW T.母鸡的牙齿和鲸鱼的脚:广义的人物和他们的兼容性。j计算biol。1995年;2(4):515-25。

    CASPubMed.文章谷歌学术

  29. 29.

    Pe'er I,Pupko T,Shamir R,Sharan R.不完全指导完美的系统发育。暹罗j计算。2004;33(3):590-607。https://doi.org/10.1137/s0097539702406510

    文章谷歌学术

  30. 30.

    EL-克比尔M. Sphyr:从单细胞测序数据下损失和错误肿瘤系统发育估计。生物信息学。2018;34(17):671-9。https://doi.org/10.1093/bioinformatics/bty589

    文章CAS谷歌学术

  31. 31.

    王Y,Waters J,Leung Ml,unruh A,Roh W,Shi X,Chen K,Scheet P,Vattathil S,梁H,Multani A,Zhang H,Zhao R,Michor F,Meric-Bernstam F,Navin Ne。单核基因组测序揭示乳腺癌的克隆演变。自然。2014;512:155。文章。

    CASPubMed.公共医学中心文章谷歌学术

  32. 32.

    侯Y,宋L,朱P,张B,陶Y,徐某某,李锋,吴K,梁Ĵ,邵d,吴H,叶X,叶C,吴R,剑男,陈Y,谢w ^那Zhang R, Chen L, Liu X, Yao X, Zheng H, Yu C, Li Q, Gong Z, Mao M, Yang X, Yang L, Li J, Wang W, Lu Z, Gu N, Laurie G, Bolund L, Kristiansen K, Wang J, Yang H, Li Y, Zhang X, Wang J. Single-cell exome sequencing and monoclonal evolution of a jak2-negative myeloproliferative neoplasm. Cell. 2012; 148(5):873–85.https://doi.org/10.1016/j.cell.2012.02.028

    CASPubMed.文章公共医学中心谷歌学术

  33. 33.

    gawad c,koh w,quake sr。用单细胞基因组学解剖儿童急性淋巴细胞白血病的克隆起源。Proc Natl Acad Sci U S A. 2014;111(50):17947-52。https://doi.org/10.1073/pnas.142082211125425670 (pmid)。

    CASPubMed.公共医学中心文章谷歌学术

  34. 34.

    字符串、树和序列的算法:计算机科学和计算生物学。剑桥:剑桥大学出版社;1997.

    谷歌学术

  35. 35.

    Benham C, Kannan S, Warnow T.鸡的牙齿和老鼠的眼睛,或广义的字符兼容性组合模式匹配。柏林,海德堡:施普林格:1995。17-26页。

    谷歌学术

  36. 36.

    一天,约翰逊D,桑考夫D。通过简约推断有根系统发育的计算复杂性。数学生物科学。1986; 81(1):33–42.https://doi.org/10.1016/0025 - 5564 (86) 90161 - 6

    文章谷歌学术

  37. 37.

    Bonizzoni P、Braghin C、Dondi R、Trucco G。具有持久特征的二元完美系统发育。计算机科学理论。2012; 454:51–63.

    文章谷歌学术

  38. 38.

    Bonizzoni P,Carrieri AP,Della Vedova G,Rizzi R,Trucco G.一种带有持久性角色的完美系统发育的彩色图。您计算SCI。2017年;658:60-73。https://doi.org/10.1016/j.tcs.2016.08.015

    文章谷歌学术

  39. 39.

    Della Vedova G,Patterson M,Rizzi R,Soto M.基于角色的系统发育施工及其在肿瘤进化中的应用。2017年;10307:3-13。

  40. 40

    Bonizzoni P, Carrieri AP, Della Vedova G, Trucco G.通过约束持久完美系统发育解释进化。BMC基因组学,2014;15。https://doi.org/10.1186/1471-2164-15-S6-S10

    文章谷歌学术

  41. 41.

    古斯菲尔德D。持久的系统发育:一个累加树和整数线性规划方法。摘自:第六届ACM生物信息学、计算生物学和健康信息学会议记录(BCB'15)。纽约:ACM:2015.p。443–51.https://doi.org/10.1145/2808719.2808765.

    谷歌学术

  42. 42.

    解缺失或基因型数据的系统发生和种群遗传问题的整数规划公式和计算计算与组合:第十三届国际年会,COCOON 2007,加拿大班夫,2007年7月16-19日。程序。柏林,海德堡:施普林格:2007。51 - 64页。

    谷歌学术

  43. 43.

    Bonizzoni p,ciccolellla s,vedova gd,gomez ms。放松无限位点是否给予更好的肿瘤发作?基于ILP的比较方法。IEEE / ACM反式计算BIOL BIOINFORMA。2019年;16(5):1410-1423。https://doi.org/10.1109/TCBB.2018.2865729

    文章谷歌学术

  44. 44.

    吴Y.准确和高效的细胞谱系树推断嘈杂的单细胞的数据:最大似然完美的系统发育的方法。生物信息学。2020;36(1):742-750。https://doi.org/10.1093/bioinformatics/btz676

    CASPubMed.文章谷歌学术

  45. 45.

    Borewich男,森普尔C.在根的子树剪枝和再移植距离的计算复杂度。安梳。2005;8(4):409-23。https://doi.org/10.1007/s00026-004-0229-z

    文章谷歌学术

下载参考资料

致谢

我们感谢Mohamed El-Kebir在米兰大学访问时对癌症系统的Dollo模型进行一些讨论。

关于这个补充

本文已作为BMC生物信息学第21卷2020年补充件1:第八届IEEE国际生物和医学计算欧宝娱乐合法吗进展会议(ICCABS 2018):生物信息学的部分文章发表。补编的全部内容可在以下网址查阅://www.christinemj.com/articles/supplements/volume-21-supplement-1

资金

我们承认Cariplo Foundation Grant 2013-0955的支持(调节非编码RNA调节抗癌免疫应答)。Cariplo基金会在研究和收集,分析和解释的设计中没有发挥任何作用,也没有在撰写手稿中。该工作也得到了启动资金(W​​eill Cornell Medicine)和美国国家科学基金会(NSF)授予IIS-1840275至IH的支持。出版成本由欧洲联盟的地平线2020资助MarieSkłodowska-Curie Granc协议No.872539下属的研究和创新计划。

作者信息

从属关系

作者

贡献

SC和GDV开发了该方法。SC,MP和GDV设计了实验环境。SC,MP和MS实现该方法并进行了实验分析。PB,GDV和IH监督并协调工作。所有作者都致力于稿件写作。所有作者都阅读并批准了稿件的最终版本。

相应的作者

对应于西蒙娜·奇科莱拉

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

额外的信息

出版商的注意

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Ciccolella S., Soto Gomez M., Patterson, M.D.等等。GPPS:用于推断癌症进展与从单细胞数据突变损失基于ILP的方法。欧宝娱乐合法吗21,413(2020)。https://doi.org/10.1186/s12859-020-03736-7

下载引用

关键词

  • 整数线性编程
  • 爬山
  • 种系发生
  • 单细胞测序
\