跳到主要内容

基于近似仿真器的离散随机系统加速回归汇总统计

抽象的

背景

贝叶斯近似计算(ABC)已经成为校准离散随机生化模型参数的关键工具。对于高维的模型和数据,其性能在很大程度上取决于在具有代表性的一组汇总统计。虽然基于回归的方法已被证明允许有效的汇总统计数据的自动构建,他们在第一次模拟大的训练集的依赖将这些方法应用于离散随机模型,模拟其相对昂贵,当创建一个显著的开销。在这方面τ.工作,我们提出了一种方法来减少这种计算负担,利用这些系统的近似模拟器,如常微分方程和τ.-Leaping近似值。

结果

我们开发了一种算法,可以通过选择性地使用更快的近似算法来加速基于回归的基于回归的汇总统计统计统计的算法。通过将问题作为比率估计之一,我们在机器学习中使用最先进的方法来表明,在许多情况下,我们的算法可以显着降低全分辨率模型的模拟数量,以最小的成本用户准确性和额外的额外调整。我们展示了我们具有四种不同实验的方法的有用性和鲁棒性。

结论

我们提供了一种新的算法,用于加速随机生化系统的总结统计施工。与完全训练的标准做法相比,从精确的模拟器样本训练,我们的方法能够大大减少对随机模拟器的所需呼叫的数量,以最小的精度损失。这可以立即实现,以提高ABC工作流程的总速度,以估计复杂系统中的参数。

背景

近年来,已显示随机性在许多分子生物学过程中发挥至关重要的作用,例如遗传拨动开关[12和稳健振荡器[3.].系统生物学家经常使用连续时间离散空间马尔可夫链来模拟这些随机生化反应系统[4],这使得我们能够捕捉到由于某些反应物(如转录因子)的有限可用性而导致的系统中的随机性。建立这些随机系统的精确机械模型的关键步骤是根据实验数据校准动力学速率常数。尽管存在有效的参数估计方法对类似模型使用最大似然或贝叶斯推理,对于这些离散随机模型,似然函数的难解性迫使研究人员依赖于不断增长的无似然推理(LFI)方法[567],它仅依赖于一个模型模拟器的可用性。近日,近似贝叶斯计算(ABC)89由于其简单性和效果,已成为离散随机模型最受欢迎的LFI方法之一。

生化系统的参数估计

在本节中,我们简要介绍一下生化反应系统的环境参数估计。鉴于描述的生化反应系统反应N生化物质,单个反应可以在形式指定

$ ${对齐}+ B \ \开始mathop{\} \限制^ {f(\θ)}c \{对齐}$ $

在哪里\ (f(θ)\ \)是动力学速率函数,参数化为\θ(\ \),量化发生反应的速率。在常识中\(f() = \(),它通常被称为一个动力学速率常数。反应系统的动力学可以用许多数学方法来描述,如常微分方程(ode)、随机微分方程(SDEs)和马尔可夫过程。提供了一个实验观察数据集,\(X_o \),衡量N随着时间的推移,参数估计涉及校准所有未知的动力速率参数\θ(\ \)使得所得模型复制所观察的数据。

存在大量方法,用于生化系统的参数估计,尤其是当使用ODES建模动态时。对一些突出优化,成群质主义和贝叶斯方案的广泛审查详述了[10111213].在这项工作中,我们对贝叶斯参数估计感兴趣,当生物化学系统的动态表现出特性随机性,并使用连续时间进行建模,离散空间马尔可夫过程[4].贝叶斯方法允许我们通过使用贝叶斯公式计算动力学速率参数的后验分布来量化估计中的不确定性,

$ $ \ p{对齐}开始(\θ| X_o) = \压裂{p (X_o | \θ)p(\θ)}{p (X_o)}。\{对齐}$ $
(1)

这一个重大挑战是,所产生的可能性难以消除,\(p(X | \θ)\),将算法限制为无似然推理(LFI)方法类中的算法[567,例如近似贝叶斯计算,我们将在下面介绍。

近似贝叶斯计算

给定一个先验参数\(p(\θ)\)以及随机模拟器\(p(X | \θ)\),近似贝叶斯计算(ABC)近似于后部分布\(P(\ THETA | X)\ propto P(X | \ THETA)P(\ THETA)\)只使用正向模拟和不用计算的可能性[8].基本抑制ABC以算法1呈现。

雕像

什么时候X是高维的,比较精确的轨迹往往导致非常低的接受率由于维的诅咒。出于这个原因,标准的做法是通过先降低的维度来换取效率X使用一组摘要统计信息sX),然后随后使用轨迹使用\(d(S(X_o),S(X))\), 在哪里D是用户选择的距离功能。然而,这可能导致验收率更高,选择合适的选择sX)对于任何给定的模型可能是困难的。

基于回归汇总统计

ABC的性能高度依赖于对实验数据拥有一组有效的汇总统计数据,随着问题维度的增长,领域专家手动选择这些数据变得越来越困难[8].对于随机生化反应系统,其中数据通常以分子种类的样品路径随时间的方式,这是由于轨迹的复杂性,这是一种常见的问题,其中简单的装置和相关性可能没有有效地捕获特征。出于这个原因,最近已经过重大焦点从模型模拟中自动学习汇总统计数据,我们将参考基于回归的汇总统计数据。

弗恩黑德和普兰格[14]将ABC基于回归的汇总统计问题表述为后验平均值的最小二乘估计:

$$ \ {开始对准}&S(X)= {\ mathbf {E}} [\ THETA |X] = F _ {\披}(X)\ {端对齐} $$
(2)
$ $ \开始{对齐}& \θ| X \ sim {\ mathcal {N}} (f{\φ}(X), 1) \{对齐}$ $
(3)
$$ \ {开始对准}&\ THETA = F _ {\披}(X)+ \ε,\ {端对齐} $$
(4)

在哪里\(f _ {\ phi} \)是任意表达函数和\(\ epsilon \)是标准正态噪声。参数\(f _ {\ phi} \)在模拟数据集上使用最大似然法进行拟合\({\mathcal{D}=\{(\theta\u 0,X\u 0)\ldots(\theta\u N,X\u N)\}\)从模型中提取\(p(\ theta,x)\).虽然最初提出为线性\(f{\Phi}(X)\)对于每个参数,非线性神经网络架构在生产准确的结果时已经显示了承诺[15].对于离散随机模型,Akesson等人。[16]表明卷积神经网络(细胞神经网络)往往胜过其他架构。这样做的通用程序在算法2中详述。

贴图

基于回归的摘要统计数据的主要瓶颈是他们首先绘制大量模拟的要求N训练准确的汇总统计。对于依赖昂贵模拟器的离散随机模型,如Gillespie的随机模拟算法(SSA)[17为了生成精确的轨迹,这一步在ABC中引入了很大的开销。幸运的是,有许多更快的生化反应系统的近似模拟器,如以反应速率方程(RRE)形式存在的常微分方程(ode)、化学朗之万方程(CLE) [18], 或者τ.- leaping [19]。但是,使用近似值训练基于回归的摘要统计数据将不可避免地导致由于未知的近似误差而产生的偏差,因为摘要统计数据将学习不正确的特征。

在这项工作中,我们建议使用数据驱动的机器学习模型来使用来自近似模拟器和SSA的样本的混合训练离散随机模型的近似概要统计。这是为了显着降低计算成本的目的,同时也可以以黑箱方式减轻电位引入偏差。用于此目的的关键洞察力是,尽管近似模拟器的质量可以随着我们在参数空间周围移动的情况下变化而变化,但在许多部分中它足够准确,而且通常是未知的。为了利用这一点,我们训练近似比率估计器以通知当近似值显着不同,因此当我们需要使用SSA模拟以防止偏置时。在下文中,我们展示了我们算法能够有效地减少所做的昂贵SSA呼叫数量,同时保持学习摘要统计的准确性。

相关工作

使用multifidelity模拟器计算近似Bayes已探讨,但一组汇总统计存在的假设下。普雷斯科特和贝克[20.]构造ABC-MCMC和ABC-SMC算法中使用多尺度模拟器的类似决策过程。在他们的方法中,他们从一系列假设中得出最佳的延续概率,而我们采用深度神经网络和近似比率估计的黑箱方法。

近似似然比已用于在MCMC和ABC框架内执行无似然推理[21.22.23.24.].这些工作主要集中在估计单一模型在不同参数点上的似然比,而我们的重点是估计近似模型和完整模型之间的似然比。

结果

概略摘要统计数字概览

我们算法的目标是通过利用单个近似模拟器的可用性,减少为ABC构建一组基于回归的汇总统计数据的计算成本。这是由我们的算法通过两个主要步骤完成的。首先,使用比值估计器来区分近似轨迹和SSA轨迹两个模拟器的样本。接下来,培训摘要统计,\(N-M\)从近似模拟器中提取额外样本并通过比率估计器。如果比率估计器低于某个阈值,表明其与真实模型存在显著差异,我们将使用完整模拟器对其重新采样,以防止从昂贵的SSA中进行不必要的重采样。有关完整详细信息,请参阅“方法”和算法3。

实验

为了评估我们的方法的计算节省,我们评估的复杂程度不同的四个离散随机模型的方法,并比较基准算法2的使用没有任何近似的模拟。我们报告用于训练一个汇总统计,而不是挂钟时间SSA来电总数由于问题的高度并行性质。基线方法利用NSSA调用但通过定义产生最准确的摘要统计信息。使用归一化后部均值误差评估所产生的摘要统计的准确性\(E _ \%\)[16]在一个大的固定测试集​​SSA轨迹。我们简要说明了\(E _ \%\)在下面的部分。

对于每个实验,我们表示X对于从SSA模拟的轨迹,以及\({\tilde{X}}\)从近似模拟轨迹。每个轨迹也标有\(Y=\{0,1\}\)在哪里\(Y=1\)表明该轨迹来自于SSA模拟器和\ (Y = 0 \)表示轨迹来自近似模拟器。报告使用30个培训和评估的复制。我们还绘制培训的近似比分类器对每个实验的近似模拟器汲取的样本的预测。该输出被解释为训练比率估计器下的概率,即近似轨迹\({\tilde{X}}\)\θ(\ \)来自于SSA模型\(P(Y = 1 | {\代字号{X}},\ THETA)\).近0或1附近的值会通过SSA模型告知决定重新取样,因为我们知道真实类标签\({\tilde{X}}\)\ (Y = 0 \).概率在0.5附近表明比率估计器不能区分SSA和近似样本,近似不需要重新采样。每个实验的完整细节可以在补充材料中找到。

所有的实验都是使用StochSS和gillespy2 [25.]用于模拟生化反应系统的包装。具体地,对于我们的近似模拟器,使用Adaptive Lsoda Integrator生成ode轨迹[26.] 和τ.跳跃轨迹使用自适应生成τ.-跳转算法[27.在gillespy2的默认包参数下。

归一化后均绝对误差\(E _ \%\)

我们使用归一化后验平均绝对误差来评估我们实验的性能\(E _ \%\)[16],定义为,

$ ${对齐}E_ \ % = \ \开始压裂{{\ mathbb {E}} _{\θ\在p(\θ)}| \θ-{\帽子{\θ}}|}{{\ mathbb {E}} _{\θ\在p(\θ)}| \θ-{\酒吧{\θ}}|}。\{对齐}$ $

在此设置中,{\ \({\帽子θ}}\)是后验平均值和\({\ bar {\ theta}} \)是先验平均值。该量可近似为均匀先验平均值UA.B)一套N测试点为

$$\begin{aligned}E\%\approx\frac{4}{b-a}\frac{1}{N}\sum{i=1}{N}}}\theta{i-\hat{\theta}{i}}和\end{aligned}$$

在哪里\(\hat{\theta}{i}\)是使用基于回归的汇总统计量得到的,该汇总统计量经过训练可以预测后验均值。

\(E _ \%\)旨在量化后部分布中获得的信息。价值\ (E_ \ % = 1 \)表示没有在价值观时获得的信息< 1 \ \ (E_ \ %)指出相对准确性的提高。该数量的真实值取决于观测值的信息量,这在大多数问题中通常是未知的。因此,在假设SSA训练的汇总统计信息量最大的情况下,不同汇总统计信息的质量相对比较事实真相。

纯诞生过程

纯诞生过程或同质泊松过程是一个琐碎的例子,可能是易行的τ.-跳跃近似为所有参数值产生精确的轨迹。在生物化学系统中,纯生源过程代表了分子物种以固定速率自发生成的过程,虽然它本身很简单,但在更复杂的模型中往往是一个基本组成部分。该模型由一个单一的参数化反应来描述s表示任意生物化学物种:

$$ \ begin {alpiouned} \ phi \ mathop {\ lightarrow} \ limits ^ {k} s,\ end {对齐} $$

初始条件\(s_0 = 0 \).我们之前指定一个范围内统一\(k \sim {\mathcal {U}}(0,10000)\)并不时观察过程\(t = {0: 100: 1\}).虽然微不足道,但这个例子探讨了学习正确近似比率估计器的能力,这应该始终预测由于近似的准确性而在约0.5。

数字1A表示仅训练过的近似比率估计器的输出\(m = 300 \)从参数空间样本并评估对5000个样本从近似模型。大约0.5的浓度表示该比率估计器能够检测两个模型评估相同的可能性。事实上,在图。1B,我们看到后部分布使用摘要仅通过训练τ.- leapy样本或仅SSA样品有效地相同。在这种情况下,我们使用来自SSA模型的非常少量的样本来构建比率估计器,而是完全依赖于τ.-Leaping逼近精度没有损失。

图。1
图1

校准的比值概算纯生过程A.经过训练的比率估计器捕捉到τ.-跳跃近似是精确的,所有样本的概率为0.5。B从两个汇总统计后捕获地面实况

Lotka-Volterra随机振荡器

一个更具挑战性和常用的测试问题是洛特卡 - 沃尔泰拉随机振荡。该模型描述了捕食种群动态和可以模拟成一个离散随机系统。与\(S_1 \)代表捕食者的计数和\(S_2 \)表示猎物数量,该系统通过以下反应集指定:

$ mathp {right tarrow}\limits^{k_1} 2 S_1 \四\四S_1 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_2 \四\四S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_1 + S_2 \ mathp {right tarrow}\limits^{k_2} 2 S_1 + S_2 \

与最初的人群\(S_1(0)= 50,S_2(0)= 100 \).我们分配前瞻,

$ ${对齐}& \ \开始日志(k_ {1}) \ sim {\ mathcal{你}}(2 - 6)\四\ log (k_ {2}) \ sim {\ mathcal{你}}(2 - 6)\ \ & \ log (k_ {3}) \ sim {\ mathcal{你}}(2 - 6)\四\ log (k_ {4}) \ sim {\ mathcal{你}}(2 - 6),\ \ \{对齐}$ $

和观测频率以下的[28.,并选择确定性ODE作为我们的近似模拟器。该模型的一个关键特征是,在给定的先验条件下,只有很小的参数空间区域导致ODE和SSA模型一致振荡。在大多数其他地区,人口爆炸是典型的行为。我们用\ \ (M = 3000)样本和训练汇总统计\(n = 10 ^ 5 \)样品。\(E _ \%\)使用300000保持SSA测试样品进行评估。

如图所示。2一,经训练的比率估计器受让人显著质量约为0.5但具有重尾,这表明样品的一些比例应使用SSA用于更好的精度进行重新采样。数字2B显示了敏感性\(E _ \%\)当我们根据比率估计量增加SSA样本的比例时。在这种情况下,误差迅速降低到全SSA汇总统计的水平\ (1.5 \ % \)SSA样本。分配不足的SSA样本比例导致显着更大的误差。

图2
图2.

Lotka-Volterra随机振子的训练比估计A.训练有素的\(P(Y = 1 | {\代字号{X}},\ THETA)\)对于Lotka-Volterra轻松分类许多情况,由左尾的峰表示,但仍然不确定大多数。B随着所附SSA调用的比例使用比率估计器增加,误差会很快落下。注意非线性X轴,表明错误的误差非常僵硬。C对于这四个参数显示后边缘人,这三个汇总统计能够在振荡区域大致等效执行

数字2(c)所示训练有素的汇总统计在振荡政权一组观察的后验分布。所有三个后验能够捕获的真实参数,表明为参数空间中,ODE和近似比率摘要统计某些部分可以作为SSA训练摘要统计执行一样好。然而,降低\(E _ \%\)表示全局混合汇总统计信息可能性能更好。在这个例子中值得注意的是,尽管ODE是确定性的,我们仍然获得了良好的结果,证明了该方法对于拥有一个完美精确的比率估计的稳健性。

比较随机

为了评估比率估计器提供的益处,我们将通过比率估计器方法训练的汇总统计数据与通过在Lotka-Volterra模型上随机重新抽样固定比例的近似样本与SSA样本训练的汇总统计数据进行比较。在此设置下,使用相同比例的昂贵随机模拟对每个汇总统计进行训练,但轨迹的选择方式不同。

桌子1显示\(E _ \%\)随着我们在这两种方法下增加SSA轨迹的比例。我们看到,尽管随机训练的汇总统计量能够产生与我们的比率估计器近似汇总统计量相比较的结果,但它的稳健性要差得多,特别是当比例很小的时候。这可以解释为,当我们包含更多的随机样本时,随比率估计量随机包含相同样本的概率就会变得更高。对于Lotka-Volterra模型,从我们的实验中可以看出,由于它不需要很多SSA样本就可以获得良好的性能,所以这一过程发生的相对较快。

表1近似汇总统计中值\(E _ \%\)对于Lotka Volterra,以90%的间隔进行100次迭代

遗传拨动开关

遗传扳钮开关可用于表现出在低人口计数随机切换行为[生物系统的模型29.].与Uv作为相互抑制对方的两种生化物质的代表,该系统由以下一组反应描述:

$$ \ begined {seconaled}&\ phi \ mathop {\ longrightarrow} \ limits ^ {\ frac {\ alpha _11} {1 + v ^ {\ beta}} u \ quad \ phi \ mathop {\ longrightarrow}}限制^ {\ frac {\ alpha _2} {1 + v ^ {\ gamma}}} v \\&u \ mathop {\ lightarrow} \ limits ^ {\ mu} \ phi \ quad v \ mathop {\ lightarrow} \限制^ {\ mu} \ phi。\{对齐}$ $

在我们的研究中,我们设置为初始条件\(U = 10,V = 10 \),将下列先验赋值给参数,

$ ${对齐}& \α_1 \ \开始sim {\ mathcal{你}}(0,3)\四\α_2 \ sim {\ mathcal{你}}(0,3)β\四\ \ & \ \ sim {\ mathcal{你}}(0,3)\四\伽马\ sim {\ mathcal{你}}(0,3)\四\μ\ sim {\ mathcal{你}}(0,3)\{对齐}$ $

和使用自适应τ.-Leaping求解[27.]作为我们的近似模拟器,它在该模型中产生的轨迹始终比SSA模型具有更高的人口计数。由于这些差异对应于人口数量较少的地区,因此总体结果的差异是显著的。我们使用\(m = 5000 \)并用预算对汇总统计进行培训\(n = 10 ^ 5 \)\(E _ \%\)使用300000保持SSA测试样品进行评估。

数字3.a显示所有项目的预测比率\(10 ^ 5 \)经过低保真度样本的训练,表明该分类器可以很容易地分辨出大部分正确的类τ.-跳跃样本。但是,由于质量仍然接近0.5,使用非常小的\(ρ= 0.01 \ \),我们可以通过降低SSA的呼叫数量\(50 \%\)只有失去\(2 \%\)\(E_{\%}\).在此之前,尽管大多数参数空间导致小的种群计数,但重要的部分导致种群的增长Uv,那里的τ.-跳跃近似更精确。经过训练的比率估计器能够捕捉这种差异并防止昂贵的重采样。

图3.
图3.

遗传比率估计遗传拨动开关A.训练有素的\(P(Y = 1 | {\代字号{X}},\ THETA)\)可以轻松分类大多数情况。B\(E _ \%\)通过使用我们的混合训练集,错误只会略微增加,但仍然会显著减少SSA调用

VILAR振荡器

为了在一个更大的问题上用一个有问题的近似来研究我们的方法,我们看一个稳定的随机遗传振荡器[3.为生物钟建模。该系统被定义为由15个速率常数控制的9个物种和18个反应,并被设计为在存在固有噪声的情况下产生鲁棒振荡。有关这个模型的反应的详细信息,请参阅附录。维拉振子是一个具有挑战性的推断问题,因为一定振幅的振动被局限于参数空间的小区域,并与大先验空间相耦合。我们使用具有对数正态噪声的ODE模型作为我们的近似,并且只观察物种C一个,及R系统。在此模型的观察设置下,参数识别不佳[16].比率估计器是训练使用\(m = 10000 \)并使用\(N = 200000 \)\(E _ \%\)使用300000保持SSA测试样品进行评估。

数字4a表明,经过训练的近似比率估计器能够很容易地对大多数带有附加噪声的ODE解进行分类,表明ODE模型是一个相当差的近似。该模型对噪声具有鲁棒性,ODE能很好地捕获均值,但同时对数正态噪声不能很好地捕获方差,而比值估计器能够区分这两者。这也可能有助于诊断一个近似是否适合研究模型。然而,由于噪声的加入,比值估计器在某些领域仍然不确定,使用a\(\ RHO = 0.1 \)与比率估计器相对应,我们仍然能够减少SSA呼叫的数量45 \ % \ \ ()并获得类似的\(E _ \%\)到完整SSA数据集的数据,如图所示。4b、 这表明,即使在近似值很差的情况下,通过根据比率估计器智能地选择重采样,仍然可以在保持精度的同时节省计算量。

图4.
图4.

VIROR振荡器的培训比率估计A.训练有素的\(P(Y = 1 | {\代字号{X}},\ THETA)\)可以轻松分类大多数情况。B\(E _ \%\)通过使用我们的混合训练集,错误只会略微增加,但仍然会显著减少SSA调用

讨论

桌子23.总结所有实验的主要结果。结果报告了平均值\(E _ \%\)超过30次复制。值得注意的是,在每种情况下,使用我们的方法我们能够使用明显更少的SSA呼叫来训练摘要统计,只需精确损失。总的来说,训练的比率估计器能够检测近似模拟器何时良好,因此何时倾斜到近似模拟器以进行训练。

表2比率估计的近似汇总统计SSA调用
表3近似摘要统计平均值\(E _ \%\)

在实际的应用

虽然一个精确的比率估计器将不可避免地导致一个精确的算法,但我们发现,在许多情况下,用于训练摘要统计数据的比率估计器并不需要非常精确。事实上,一个非常有表现力的比率估计器可能会对噪声进行过度拟合,从而导致完美的分类,而表现力较低的比率估计器可以在汇总统计中产生类似水平的准确性。当我们使用ODE作为近似时,这是最明显的,比值估计器可以快速学习根据解的光滑性来辨别。尽管如此,这对于汇总统计仍然是有用的,因为近似模型通常仍然可以表示高级特性。在我们的例子中,我们使用了各种各样的神经网络架构来学习比率估计器,但我们发现,通常,一个简单的DNN就足以获得类似的结果。对于Lotka-Volterra ODE模型,我们使用DNN来防止对噪声的过拟合,如上所述。我们使用的CNN架构类似[16用于其他车型,其中所述近似是随机的,并建议基于所使用的近似的模拟器类似的方法。

选择样本的数量培训比率 - 估计对于我们方法的效率和准确性来说都很重要。一般来说,依赖于模型的输出是多么敏感,通过参数空间。如果模型显示出巨资在整个参数空间变化,自然需要更大才能捕捉到这一点。5,我们显示近似训练摘要统计数据的性能,因为我们改变了初始样本的数量对于洛特卡-Volterra模型。虽然这是高度依赖模型,我们可以看到,在这种情况下,样本的数量并不需要高以获得汇总统计精度好。由于近似是相对准确和行为不迅速通过参数空间改变,我们只需要从几个位置添加全仿真,以获得准确的比率估计。在这之后,大只会略微改变总结统计的准确性或稳健性。

图5.
图5.

\(E _ \%\)Lotka-Volterra模型的误差与比率估计训练样本数N增加准确性和稳健性,但回报递减。选择高度依赖模型

在选择\(\ rho \),我们试图最大限度地提高准确性,同时尽量减少SSA样本的数量。一种有效的启发式方法是模拟大量廉价的近似轨迹,将其通过比率估计器,然后进行选择\(\ rho \)捕获分发中的第一个主要模式。对于Lotka-Volterra模型,图。2A会建议设定\(\ rho \)大约0.01。凭经验,我们发现设置阈值相当低,有效地纠正最糟糕的情况仍然可以产生有效的汇总统计数据。最佳选择\(\ rho \)是未来需要研究的东西,因为它代表了关键的计算权衡。一种可能是使用贝叶斯优化来建立一个估计\(\帽子{E} _ {\%} = F(\ RHO)\)[30.].由于每个实验对于模拟可能昂贵,这可能导致比网格搜索更有效的超参数搜索技术。此外,如图所示\(\ rho \)被切断,计算可以通过保存的模拟和重新使用他们的训练汇总统计,如果只需要模仿更加速了超参数整定。

通过二进制分类学习近似比率估计器,而通常比学习摘要统计更容易完成,如果参数空间非常敏感或非常高,则可能是昂贵的。在这些情况下,要区分我们可能需要设置的模型要大量获得所需的精确度。在我们的例子中,我们能够使用比培训摘要统计所需的更少数量的样本。随着模型复杂性的增加,学习良好比率估算器所需的培训样本的数量可能会增加。节省一些计算成本的一种可能性是预先列车比率估计器的第一层是编码器,然后微调编码器层以学习摘要统计。这将充当半监督算法[31.]这可能有助于学习一个好的汇总统计数据。

结论

我们已经提出了与离散随机反应模型的精确仿真训练为ABC汇总统计,利用近似仿真在一起的方法。使用机器学习和近似比估计的进步,我们证明了正确校准,就可以显著降低学习的一个汇总统计需要昂贵的SSA调用的次数。采用反应系统的四个例子中,我们发现显著的计算可以节省,同时保持大致总结统计的准确度来实现。

在这项工作中,我们专注于在同一时间仅使用一个近似值。在实践中,可供不同精度的同型号众多的近似值。扩展这一方法不同级别的近似值之间进行选择可能会进一步减少所需的充分SSA呼叫的数量,甚至在情况下,近似一个在所有地区都充分差。

方法

近似汇总统计

允许访问近似的模拟器\(q({\ tilde {x}} | \ theta)\)和完整的SSA模拟器\(p(X | \θ)\)对于给定的离散随机生化系统,我们的目标是根据(2)这将利用尽可能多的近似样本,同时减少这样做的偏差。我们分配了一个计算预算N总的模拟,并假设近似模拟器比SSA模拟要快得多。对于离散随机模型,这个假设通常是准确的。由于近似误差通常是非平凡的,只使用近似轨迹训练汇总统计可能会导致偏差,这取决于问题。

通过似然比构建用于训练的近似数据集

我们解决这个问题的方法是将每个采样步骤视为一个关于近似模拟是否充分的决策。具体来说,假设对于每个样本,我们绘制\(\ THETA \ SIM P(\ THETA)\)然后从近似模拟器模拟\({\tilde{X}}\sim q({\tilde{X}}}\124;\ theta)\).样品\({\tilde{X}}\)将诱发训练偏见sX)如果在\θ(\ \)\(q({\ tilde {x}} | \ theta)\)与完整的SSA模拟器有显著不同吗\(p({\tilde{X}} | \theta)\).直观地,为了避免这种偏见,我们需要重新取样,\(x \ sim p(x | \ theta)\)和丢弃\({\tilde{X}}\).将获得的计算节省,如果在参数空间的主要部分,近似模拟器产生一个良好的近似到SSA的。

我们使用SSA模型与近似采样轨迹评估的近似模型之间的两个模型之间的差异量化了两个模型之间的差异\({\tilde{X}}\)\θ(\ \)

$$ \ {开始对准} R({\代字号{X}},\ THETA)\ triangleq \压裂{P({\代字号{X}} | \ THETA)} {Q({\代字号{X}} |\ THETA)}。\{对齐}$ $
(5)

这可以看作是在每个步骤中进行假设测试,以确定是否有足够的证据来区分轨迹来自哪个模拟器。如果在给定\θ(\ \)\({\tilde{X}}\),我们无法区分它是来自近似模型还是完整模型,使用近似模拟应该会产生很小的偏差。如果两个模型产生完全相同的可能性,我们将期望值为1,表示两者之间的差异。最重要的是,评估此比率通常只需要从应用程序进行模拟roximate模拟器,仅当我们对近似轨迹没有信心时才需要呼叫SSA。

遗憾的是,对于离散的随机生化模型,由于可能性的难以造成的性,这种比率是不可用的。但是,在机器学习中使用最近的进步,我们可以构建强大的近似值的似然比。

雕像

近似率估计

虽然似然比(5)不能直接计算,最近的工作已表明,它可以通过使用二元分类器从两个不同的模型[样品之间进行区分很好地近似22.23.32.].具体来说,假设我们分配标签\(Y=1\)到轨迹\(x \ sim p(x | \ theta)\)\ (Y = 0 \)的轨迹\({\tilde{X}} \sim q(X | \theta)\).如果我们有机会获得一个概率\(P(Y = 1 | X,\ THETA)\),似然比通过以下方式直接相关:

$ $ \{对齐}开始拟定(Y = 1 | X \θ= \压裂{p (X | \θ)}{p (X | \θ)+ (X | \θ)}\{对齐}$ $
(6)
$$ \开始{对齐}&R(X,\ THETA)\ triangleq \压裂{P(X | \ THETA)} {Q(X | \ THETA)} = \压裂{P(Y = 1 | X,\ THETA)} {1 - p(Y = 1 | X,\ THETA)}。\{对齐}$ $
(7)

因为我们无法访问\(P(Y = 1 | X,\ THETA)\),我们必须估计一下。深度学习的最新进展已经证明了如何建立对学习的强大近似\(P(Y = 1 | X,\ THETA)\)尽管轨迹的维度维数系X.卖\(克_ {\ PSI}(X,\ THETA)\)是一个带有输入的任意复杂函数X\θ(\ \)参数化的\ψ(\ \)(如深神经网络),我们可以近似概率:

$ $ \{开始对齐}和{\帽子{p}} (Y = 1 | X \θ= \φ(X, \θ)= \压裂{\ exp (g_ {\ psi} (X, \θ)}{1 + \ exp (g_ {\ psi} (X, \θ)}\{对齐}$ $
(8)
$$ \ begin {对齐}&y \ sim {\ text {bernoulli}}(\ phi(x,\ theta))\ end {对齐} $$
(9)

与数据集

$$\begin{aligned}{\mathcal{D}={(\theta{u 1,X{u 1,1),(\theta{u 1,{\tilde{X}}}u 1,0),\ldots,(\theta{M,X{M,1),(\theta{M,{\tilde{X}M,0)\}.\end{aligned}$$

尽管需要训练比率估计器,二元分类任务比回归任务更容易,允许我们使用比训练汇总统计更少的训练样本。参数\(克_ {\ PSI} \)通过最大可能性估计。通过这一初步步骤,我们描述了算法3中的完整摘要统计培训程序。\(P(Y = 1 | X,\ THETA)\)与...直接成比例\({\hat{r}}(X,\theta)\),我们使用概率作为算法中更具可解释的代理。

该算法的实现和实验的复制可以在https://github.com/rmjiang7/approximate_summary_statistics

数据和材料的可用性

可以在实验和方法复制实验和方法的代码https://github.com/rmjiang7/approximate_summary_statistics

缩写

美国广播公司(ABC):

近似贝叶斯计算

LFI:

似然推论

颂:

常微分方程

CNN:

卷积神经网络

SSA:

Gillepsie随机模拟算法

E

归一化后均绝对误差

\({\ mathcal【U}} \)

均匀分布

DNN:

深神经网络

ABC-MCMC:

马尔可夫链蒙特卡罗近似贝叶斯计算

ABC-SMC:

近似贝叶斯计算-顺序蒙特卡罗

参考文献

  1. 1.

    在单个细胞中随机基因表达的研究。科学。2002;297(5584):1183 - 6。

    CAS文章谷歌学术

  2. 2。

    Mcadams HH,Arkin A. It'sa嘈杂的业务!纳摩尔尺度的遗传调节。趋势类型。1999年; 15(2):65-9。

    CAS文章谷歌学术

  3. 3.

    魏文敏,邱海,巴尔凯N,雷布勒S.遗传振荡器的抗噪声机制.自然科学学报,2002;99(9):5988-92。

    CAS文章谷歌学术

  4. 4。

    Gillespie dt。化学总体方程的严格推导。Physica A. 1992; 188(1-3):404-25。

    CAS文章谷歌学术

  5. 5。

    张志强,王志强,王志强,等。随机生化系统的加速极大似然参数估计。BMC Bioinform。2012;13(1):68。

    文章谷歌学术

  6. 6。

    随机生物化学动力学的近似和推理方法。acta Phys A mathematics theorem . 2017;50(9):093001。

    文章谷歌学术

  7. 7。

    警告DJ,贝克RE,辛普森MJ。系统生物学中计算推理的伪边际方法的实用指南。J Theor Biol. 2020;496:110255。

  8. 8。

    西森SA,范Y,计算近似Bayes博蒙特M.手册。伦敦:CRC出版社;2018年。

    谷歌学术

  9. 9。

    Del道德P,Doucet A,Jasra A.一种用于近似贝叶斯计算的自适应序贯蒙特卡罗方法。统计计数。2012; 22(5):1009-20。

    文章谷歌学术

  10. 10

    痣CG,门德斯P,邦加JR。在生化途径参数估计:全局优化方法进行了比较。Genome Res。2003; 13(11):2467-74。

    CAS文章谷歌学术

  11. 11

    Nobile MS,Tangherloni A,Rundo L,Spolaor S,Besozzi D,Mauri G,Cazzaniga P.生物化学系统参数估计的计算智能。参加:2018年IEEE进化计算大会(CEC),2018年;第1-8页。IEEE

  12. 12

    Ballnus B,Schaper S,Theis FJ,Hasenauer J.使用基于区域的自适应平行回火的生物化学反应网络的贝叶斯参数估计。生物信息学。2018; 34(13):494-501。

    文章谷歌学术

  13. 13。

    弗罗利希楼Kaltenbacher B,泰斯FJ,对基因组范围的生化反应网络Hasenauer J.可缩放参数估计。PLOS计算BIOL。2017; 13(1):1005331。

    文章谷歌学术

  14. 14。

    Fearnhead P,Prangle D.用于构建近似贝叶斯计算汇总统计:半自动近似贝叶斯计算。Ĵř统计志序列B(统计Methodol)。2012; 74(3):419-74。

    文章谷歌学术

  15. 15.

    姜斌,吴天义,郑聪,王伟.基于深度神经网络的近似贝叶斯计算学习摘要统计.统计单.2017;27:1595-618。

  16. 16。

    ÅkessonM,辛格P,Wrede F,Hellander A.卷积神经网络作为近似贝叶斯计算的汇总统计数据。arXiv预印本arXiv: 2001.11760(2020)。

  17. 17。

    Gillespie dt。耦合化学反应的精确随机模拟。J Phys Chem。1977; 81(25):2340-61。

    CAS文章谷歌学术

  18. 18。

    Gillespie dt。化学乐曲等方程。J Chem Phys。2000; 113(1):297-306。

    CAS文章谷歌学术

  19. 19。

    rathinam m,petzold lr,cao y,gillespie dt。随机化学反应系统的刚度:隐式Tau跳跃方法。J Chem Phys。2003; 119(24):12784-94。

    CAS文章谷歌学术

  20. 20

    普雷斯科特TP,贝克RE。序贯蒙特卡罗参数抽样的多理想近似贝叶斯计算(2020)。arXiv:2001.06256

  21. 21

    赫尔曼·j,begy v,louppe g.似然免疫的mcmc,摊销近似比率估计。arXiv预印本arXiv: 1903.04057(2019)。

  22. 22

    Thomas O,Dutta R,Corander J,Kaski S,Gutmann Mu。比率估计无似的推断。贝叶斯肛门。2020。https://doi.org/10.1214/20-BA1238

    文章谷歌学术

  23. 23

    克兰默K,PavezĴ,用校准的判别分类器Louppe G.逼近似然比。arXiv预印本arXiv: 1506.02169(2015)。

  24. 24

    Brehmer J,LOUPPE G,Pavez J,Cranmer K.来自隐式模型的挖掘金,以提高无似然推论。PROC NAT ACAD SCI。2020; 117(10):5242-9。

    CAS文章谷歌学术

  25. 25。

    德拉韦特B,Hellander A,大包B,班纳吉d,Bellesia G,英对照精华文章BJ JR,道格拉斯G,辜呒,古普塔A,Hellander S,等人。随机模拟服务:弥合计算专家和生物学家之间的差距。PLOS计算BIOL。2016; 12(12):1005220。

    文章谷歌学术

  26. 26。

    彼佐尔德L.自动选择的解决僵硬和常微分方程的非刚性系统的方法。SIAM J SCI统计计数。1983; 4(1):136-48。

    文章谷歌学术

  27. 27。

    Cao Y,Gillespie DT,Petzold LR。TAU跳型仿真方法的高效步长选择。J Chem Phys。2006; 124(4):044109。

    文章谷歌学术

  28. 28。

    Papamakarios G, Nalisnick E, Rezende DJ, Mohamed S, Lakshminarayanan B.标准化流的概率建模和推理。arXiv预印本arXiv:1912.02762(2019)。

  29. 29。

    Gardner TS,Cantor CR,Collins JJ.基因切换开关的构建大肠杆菌.大自然。2000;403(6767):339 - 42。

    CAS文章谷歌学术

  30. 30.

    Snoek J,Larochelle H,Adams RP.机器学习算法的实用贝叶斯优化。arXiv预印本的arXiv:1206.2944(2012).

  31. 31。

    基于深度生成模型的半监督学习。见:Ghahramani Z, Welling M, Cortes C, Lawrence N, Weinberger KQ,编辑。神经信息处理系统的进展,第27卷。Curran Associates Inc .);2014.3581 - 9页。

  32. 32

    古德费洛I,POUGET-阿巴迪Ĵ,米尔扎男,许B,沃德-法利d,Ozair S,库维尔A,Bengio Y.剖成对抗性网。见:Ghahramani Z, Welling M, Cortes C, Lawrence N, Weinberger KQ,编辑。神经信息处理系统的进展,第27卷。Curran Associates Inc .);2014年,p 2672-80。

下载参考

致谢

作者想感谢Brian Drawert博士(北卡罗莱纳大学阿什维尔分校)的有益评论。

基金

作者感谢NIBIB第2-R01-EB014877-04A1号奖的研究资助。信息的内容不一定反映资助机构的立场或政策,也不应推断官方认可。

作者信息

隶属关系

作者

贡献

RMJ,FW和PS概念化了这项工作。RMJ运行了分析并写了论文。啊,LRP建议了这项工作。所有编辑和修改纸张。所有作者都读过并批准了稿件。

通讯作者

对应于理查德。m .江

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

补充资料

附加文件1。

实验细节。实验中使用的所有模型以及所有神经网络的配置的详细信息。

权限

开放访问本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您给予原作者适当的信任和来源,提供到知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包括在文章的知识共享许可证中,除非在材料的信用额度中另有说明。如果材料未包括在文章的知识共享许可证和法定法规不允许我们的预期用途或超出允许用途,您需要直接获得版权持有人的许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/. 知识共享公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

江,下午,李德,F.,Singh,P。et al。通过近似模拟器加速基于回归的基于回归的分离随机系统的概要统计。欧宝娱乐合法吗22,339(2021年)。https://doi.org/10.1186/s12859-021-04255-9

下载引用

关键字

  • 近似贝叶斯计算
  • 概要统计
  • 离散随机反应系统
  • 生化反应系统
  • Gillespie算法