跳到主要内容

一种训练部分标记生物序列隐马尔可夫模型的新算法

抽象的

背景

隐马尔可夫模型(HMM)是分析生物序列的一个强有力的工具,有着广泛的应用,从分析功能蛋白家族到识别功能域。用于HMM训练的标准方法是,当序列被标记时,通过使用计数的最大似然法,或者当序列未被标记时,通过期望最大化,如Baum–Welch算法。然而,越来越多的情况下,序列只是部分标记。在本文中,我们设计了一种基于Baum–Welch算法的新训练方法来训练HMM,以适应某些生物问题只有部分标记可用的情况。

结果

与先前报道的为文本挖掘中的主动学习而设计的类似方法相比,我们的方法在模型训练方面取得了显著的改进,当使用合成数据和真实数据对训练后的模型进行解码测试时,其精确度更高。

结论

提出了一种利用部分标记数据改进隐马尔可夫模型训练的新方法。该方法将对检测生物序列数据中的从头基序和信号产生影响。特别是,该方法将以主动学习模式部署到正在进行的检测胞间连丝目标信号的研究中,并通过湿实验室实验的验证来评估性能。

背景

隐马尔可夫模型[123.4.5.]是一种知名的机器学习概率模型,适用于检测顺序数据中的模式,例如股票市场中的纯文本,生物序列和时间序列数据。对于所有这些应用程序,成功的学习将在很大程度上取决于数据的数量,更重要的是数据的质量。在文本挖掘问题中,虽然数据量是巨大的,但仔细的标签任务消耗了大规模的人工人工[6.].在生物序列分析中,发现新生信号仍然具有挑战性,因为通过湿实验室实验精确的完整标记需要更多的资源和时间,因此一般认为是不可行的。因此,对于应用机器学习社区的不同标签质量的数据处理有必要进行研究。在本文中,我们设计了一种基于baum - welch算法的hmm学习方法来处理训练数据中只有部分标记可用的生物问题。

这项工作受到我们最近关于检测De Novo Plasmodesmata靶向信号的研究,拟南芥蛋白质蛋白(PDLPS)的研究受到启发。PDLPS是I型跨膜蛋白,其靶向称为植物细胞连接处的血浆的细胞间孔隙[7.].在我们的研究中[8.],通过构建一个三态HMM,我们预测PDLPs的JUXTA膜区域的两个不同胞间连丝靶向信号(名为α和β)的存在。虽然到目前为止,所有预测信号在湿实验实验中成功验证,但是一些预测信号包含不符合真实信号的残留物;湿式实验室实验表明,单独的那些残留物不足以将蛋白质靶向蛋白质。因为湿式实验室实验的成本和时间都很高,所以改善的HMM是非常理想的。然而,由于训练示例的数量的限制 - 拟南芥基因组仅编码八个PDLP构件,可以几乎不达到模型的进一步改进。It would require to fully utilize the current wet-lab experimental results to train the model, i.e., by labeling the residues that have been already shown to be either part of the signals or not part of the signals, given that labels are not available for all the residues due to limited experimental results.

在触乳等人的相关工作中,开发了一种半监督方法以处理含有完全标记序列子集的训练序列的混合物,其余序列在全部或部分标签上没有标记[9.].它们的方法使用完全标记的序列来训练HMMS的参数,然后使用维特比算法预测丢失的标签,然后再次使用预测的标签训练模型。在满足收敛条件之前迭代该过程。相反,我们专门对没有完全标记的序列可用的情况感兴趣,并且通常部分标记也稀疏。在文本挖掘领域,处理部分标签的HMM培训算法,特别是对于主动学习目的,旨在适应文本挖掘特殊情况:没有标签场景,或换句话说,无法分配有意义的标签[6.].然而,在文本挖掘和信息检索中,观察单位是一个词,而不是单个字母,对应于生物序列中的单个氨基酸残基。因此,为了处理上述的部分标注,我们设计了一种新的基于Baum-Welch的HMM训练算法,利用部分标注信息和通过部分标注进行模型选择的技术。除了观察单元的不同,我们的算法也不同于[6.主要是在如何计算给定位置的给定部分标签的期望值方面:我们的方法对训练序列中任何给定部分标签都必须受约束的隐藏状态路径进行求和。相反地,在…6.]通过在仅被视为所考虑的位置的路径上求和来计算给定位置处的给定部分标签的预期值,并且序列中的其他任何位置隐藏的路径可以自由地通过所有可能的状态(标签)在给出部分标签的位置处。此外,这种差异影响转换的预期值是如何计算的,无论转换是否涉及一个部分标签,两个部分标签,或根本没有部分标签。我们在[中描述的方法与方法之间的比较6.结果表明,在生物问题的解码任务中,我们的方法在合成数据和真实数据上都有较好的表现。

本文的其余部分安排如下。首先,简要介绍了HMM的相关背景知识,并介绍了符号。然后,我们的训练方法HMM仅在细节中描述仅部分标签序列时。随后是实验和结果,检查和展示新型算法的建模力。最后给出讨论和结论。

方法

隐马尔可夫模型综述

通常,HMM由一组状态组成\(S_I \)\(i = 1 \,{\ text {to}} \,n \)和一组字母的K.可以用各种频率从这些状态发出;\(b_j(k)\)表示字母的频率\(K \以K \)从州发出\ (S_j \),我们使用B.表示维数的发射矩阵\(N乘以K\),包含\(b_j(k)\)作为元素。状态之间的转换可以被描述为一个图,通常被称为模型架构或模型结构:每个状态都表示为一个节点,并且从状态到状态的转换\(S_I \)\ (S_j \)由一个定向边缘表示,重量\(a_ {ij} \)作为过渡概率,我们使用一种表示维数的转移矩阵\(N次N\),包含\(a_ {ij} \)为元素。此后,我们经常提到的状态\(S_I \)通过其指数一世

给定一个HMM,让\(\ THETA \)代表集体所有的参数,即发射频率\(b_j(k)\)和转移概率\(a_ {ij} \). 给出一系列观察结果O.,及其要素\(o_t \在k \), 在哪里\(t = 1\ldots t \),使用HMM的主要假设是序列中的每个字母从模型的状态发射,因此相应地存在状态序列,形成来自直接观察的马尔可夫链,因此名称:隐藏的马尔可夫模型.因此,一个任务(解码)是找到最可能的状态序列(也称为隐藏路径)\(X ^ * \)\(x ^ * = {{\,\ mathrm {argmax} \,}} _ {x} pr(o,x | \ theta)\),在所有可能发出观测序列的状态序列中O..第二个任务是用一组m训练序列。这个任务是通过调整模型参数来完成的\(\ THETA \)使可能性最大化\(sum _{s=1}^{m} Pr(O^s |\theta)\)观察给定的训练序列\(O^{s}\), 在哪里\(s=1\ldots m\)[10].

解码任务研究得很好,很简单,并且通过维特比算法有效地解决了这一问题[11].该技术保证返回的最佳答案。需要注意的是,在由Bagos等工作。[12],开发了一种改进的Viterbi算法,将先验拓扑信息作为部分标签,以改进预测,而我们的重点是如何在训练模型时使用部分标签。然而,当没有为训练序列给出标签时,第二个任务或HMM的训练不能保证达到最优。

HMM的主要训练算法一般有以下三种:最大似然法、Baum-Welch算法和Viterbi训练[13].当标签信息完全可用时使用最大可能性,并且返回最佳解决方案。当没有标签信息时,使用后两种算法。有兴趣的读者可以找到隐藏马尔可夫模型的温和介绍和教程[10].出于比较的目的,我们采用了[6.对于双方的背景知识和我们的方法今后讨论。符号的描述示于表1

表1符号

在本文中,我们重点讨论了只有部分标签可用的hmm训练的特殊情况。换句话说,我们的目标是找到模型\(\ THETA \)\ (Pr (O | \θ)\)被最大化(局部地)和所得到的解码的状态序列必须满足的同时在训练序列中给出的部分标签。

用部分标记序列训练隐马尔可夫模型

如前一节所述,当没有标签时,Baum-Welch算法通常用于训练HMM,维特比培训有时用于速度和简单;当给出所有标签信息时,培训HMM通过最大似然方法直截了当。目前,培训具有部分标签的培训HMM在文本挖掘领域主要研究,特别关注主动学习问题,例如[6.,我们将其与我们所提出的方法进行比较。

该方法通过对Baum-Welch算法(即约束Baum-Welch算法)的改进和模型选择技术来解决部分标签训练问题,帮助算法充分利用可用信息,提高解码任务的训练和性能。在接下来的两个小节中,我们将分别详细讨论约束Baum-Welch算法和模型选择方法,以及如何将这两种方法结合起来进行模型训练。

受限的BAUM-WELCH算法

标准Baum-Welch算法是期望最大化方法,当系统中含有潜在变量,这是隐马尔可夫模型状态序列时的训练序列没有被标记最大化似然。我们的约束Baum-Welch算法(CBW)是类似于标准Baum-Welch算法不同的是,训练序列被部分标记,其中规定在计算期望的可能隐藏状态的路径的约束。标准Baum-Welch算法被分为E步骤和M步骤。CBW算法的M步骤是等同于标准的Baum-Welch公司。所不同的是E-步骤,计算向前和向后矩阵。正向矩阵\(\α\)属于\(N \时间T \), 在哪里N是状态的数量和T.为序列长度。一个元素\(\alpha\u i(t)\)观察序列的概率是否大于或等于\ (O_t \),带有符号\ (O_t \)从州发出一世.向后矩阵\(\ beta \)属于\(N \时间T \)维度包含元素\(\测试_i(吨)\)随着观察到的序列从位置的概率T.到最后,用符号\ (O_t \)从州发出一世.计算公式\(\α\)\(\ beta \)分别如下所示。

鉴于模型\(\ theta =(\ pi,a,b)\), 在哪里\π(\ \)是一个N维向量,\ \(π_i \)任何隐藏状态路径以状态开始的概率一世.然后,求出前向矩阵的初值\(\α\)对于一个给定的训练序列\(O=(O_1,O_T,O_T)\)的计算方法如下。

$ ${对齐}\ \开始α_i(1) = \πb_i (O_1) \{对齐}$ $
(1)

在计算初始值后\(\α\),通过动态规划,通过对可能的状态路径求和,递归计算任何状态的任何位置的剩余值\(X=(X\u 1,ldots,X\u T)\)通过该模型,导致其点允许\(\α\)正在计算值。但是,由于我们现在有训练序列的部分标签O.,必须注意满足每个位置的约束条件\ (O_t \)由部分标签施加,\(L(O\u t)在S\cup\{0\}\),值零意味着没有可用的标签。具体来说,

元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元元四元组{\text{and}}\quad L(O{t+1})\ne i\\\end{array}\right.}\结束{对齐}$$
(2)

在上述等式中,第一种情况是,当位置\ (O_ {t + 1} \)未受约束(0)或约束为状态一世通过部分标号。在这种情况下\(\α\)值以与标准BAUM-Welch算法相同的方式计算,尽管实际值仍然可以通过递归在早期位置处的部分标签影响。第二种情况是当位置\ (t + 1 \)受部分标签的限制是除了以外的状态一世.在这种情况下,\(\alpha(t+1)=0\).后一种情况是什么使标准的Baum-Welch算法,以“荣誉”局部标签的算法不同。向后矩阵\(\ beta \)初始化为以下内容。

$ _i(T) = 1 \end{aligned}$$
(3)

然后,类似地,递归过程被应用于向后矩阵的剩余。

$$ \ begined {对齐} \ beta _i(t)= {\ belt \ {\ begin {array} {ll} \ sum _ {j = 1} ^ {n} \ beta_j(t + 1)a_ {ijb_j(o(t + 1)),&{} \ quad {\ text {if}} \,l(o_ {t})= 0 \ quad {\ text {或}} \ quad i \\ 0&{} \ quad {\ text {if}} \,l(o_ {t})\ ne 0 \ quad {\ text {and}} \ quad l(o_t)\ ne i \\ \ neat {array} \.} \结束{对齐} $$
(4)

请注意,虽然\(\α\)的计算方法与[中的改进Forward算法相同。12]但是\(\ beta \)从他们的修改向后算法计算方式不同。的计算之后\(\α\)\(\ beta \),然后我们可以计算\(\gamma\)变量,在哪里\(\ gamma _i(t)\)是观察训练序列的概率O.隐藏马尔科夫模型允许的所有可能状态路径\(\ THETA \)受局部标签约束,并在位置处通过状态iT.\(\ gamma _i(t)\)的计算方法如下。

$ ${对齐}\ \开始伽马_i (t) & = P (X (t) =我| \θ,O) = \压裂{P (X (t) = i, O | \θ)}{P (O | \θ)}\ nonumber \ \ & = \压裂{\α_i (t) \β_i (t)}{\总和_ {j = 1} ^ {N} \α_j (t) \β_j (t)} \{对齐}$ $
(5)

其中最后一个等号成立是因为\(P(O | \theta)=\sum{j=1}{N}\alpha{j(t)\beta{j(t)\).下一步是将计算\ \ (xi _ {ij} (t) \),这是观察训练序列的概率O.隐藏马尔科夫模型允许的所有可能状态路径\(\ THETA \)由部分标签约束并通过状态一世阳性T.然后过渡到状态j在职位\ (t + 1 \)

$$\begin{aligned}\xi{ij}(t)&=\frac{P(X(t)=i,X(t+1)=j,O|θ)}{P(O|θ)}\nonnumber\\\&=\frac{\alpha|i(t)a{ij}\beta{j}(t+1)b{j(O(t+1)){P(O|θθend}aligned}$$
(6)

最后,与\(\gamma\)习\ (\ \),M步是更新初始概率\(\pi^*\),过渡矩阵的每个元素\(A^*\)\(a{ij}^*\),和发射矩阵的每个元素\(B^*\)\(b{i}^{*}(ok)\)

$$ \ begin {对齐} \ pi(i)^ *&= \ gamma _i(1)\ END {对齐} $$
(7)
$$ \ {开始对准} A_ {IJ} ^ * = \压裂{\总和_ {T = 1} ^ {T-1} \ XI _ {IJ}(T)} {\总和_ {t = 1时} ^ {t-1} \ gamma _i(t)} \结束{对齐} $$
(8)
$ $ \{对齐}开始b_{我}^ {*}(o_k) & = \压裂{\总和_ {t = 1} ^ {t - 1} \伽马_i (t) I_ {O (t) = o_k}}{\总和_ {t = 1} ^ {t - 1} \伽马_i (t)} \{对齐}$ $
(9)

在哪里\(i_ {o(t)= o_k} \)表示指示函数,if = 1\(o(t)= o_k)和0否则。然后,对于多个序列的情况,每个序列索引S.,序列总数m,唯一的变化是更新\(\pi^*\)\(A^*\),及\(B^*\)如下。

$$\begin{aligned}\pi(i)^*&=\frac{\sum{s=1}{m}\gamma{i}{s}(1)}{m}\end{aligned}$$
(10)
$$ \ {开始对准} A_ {IJ} ^ * = \压裂{\总和_ {S = 1} ^ {米} \总和_ {T = 1} ^ {T 1 S-1} \ XI _ {IJ} ^ {S}(T)} {\总和_ {S = 1} ^ {米} \总和_ {T = 1} ^ {T 1 S-1} \伽马_i ^ {S}(T)}\ {端对齐} $$
(11)
$ $ \{对齐}开始b_{我}^ {*}(o_k) & = \压裂{\总和_ {s = 1} ^ {m} _ {t = 1} \和^ ^ {t s - 1} \伽马_{我}^{年代}(t) I_ {O ^{年代}(t) = o_k}}{\总和_ {s = 1} ^ {m} _ {t = 1} \和^ ^ {t s - 1} \伽马_i ^{年代}(t)} \{对齐}$ $
(12)

上述过程重复进行,直到\(\sum{s}^{m}log(P(O^s}\theta))\)收敛或达到用户设定的最大迭代数。正如在介绍部分中提到的,我们的方法与[6.]是计算给定排放或过渡的期望值的e步。的方法递归地处理部分标签约束\(\α\)\(\ beta \),而(6.)计算\(\α\)\(\ beta \)而不使用部分标签和只使用在重置部分标签\(\gamma\)在每个部分标记位置独立放置,就好像其他位置的部分标记对所考虑的位置没有影响一样。由于Baum–Welch算法中的E-step调用向前和向后算法,这本质上是一种动态规划,可以更有效地计算可能性:\ (Pr (O | \θ)\)=\(\ sigma _ {x \ in \ gamma} pr(o,x | \ theta)\)\γ(\ \)为所有隐藏路径的集合,因此当通过对所有可能的隐藏状态路径的概率进行穷尽求和来计算其可能性时,应该得到相同的结果。因此,我们认为,部分标签将限制可能的隐藏状态路径,\ (Pr (O | \θ)\)=\(\ sigma _ {x \ in \ gamma'} pr(o,x | \ theta)\)\(\ gamma'\)它是由部分标签约束的所有隐藏路径的集合,这种约束在动态规划中应该递归处理。图形1展示了正向/反向动态规划表构造的示例。与[中的方法相比,我们方法的另一个优点是6.]我们的训练方法可以像标准的Baum–Welch那样保持模型的初始过渡和排放猜测的拓扑结构。换言之,如果模型拓扑具有先验知识,我们针对部分标签数据的训练方法可以将这些知识保持到训练结束。

图。1
图1

约束Baum–Welch正向/反向动态规划表构造位置1–2的示例是标记位置到未标记位置的情况。位置3–4是未标记位置到标记位置的情况。位置4–5是标记位置到标记位置的情况。虚线表示状态转换。由谷歌绘图生成

基于部分标签信息的模型选择

第二部分是基于部分标签信息的模型选择。其原理很简单:虽然受限的Baum-Welch算法增加了给定训练序列(带有部分标签)的对数似然值,EM方法保证了一次又一次迭代单调地重复,但不能直接保证增加的对数似然值必然导致更高的解码精度。因此,在约束Baum-Welch算法的每次迭代中,可以计算部分标记训练序列的解码精度,并将其考虑到模型选择中。

具体而言,达到收敛条件或最大迭代次数之后,迭代的总数是问:\(我^ {th} \)迭代模型及其对应的对数似然表示为\(θ_i \ \)\(\ sum _ {s} ^ {m}日志(p(o ^ {s} | \ theta _i))\)分别使解码精度表示为((准确性(\ theta _i,o,x)\).算法返回的最终模型可以表示为:

$ $ \开始{对齐}{{\,\ mathrm {argmin} \,}} _{\θ^{*}}公关(O | \θ^{*}\枚\ {{{\,\ mathrm {argmax} \,}} _{\θ_i \ \θ_ {1 \ ldots Q}}精度(\θ_i, O, X) \}) \{对齐}$ $
(13)

注意\(\theta^{*}\)是一组一般的模型。最后,结合约束Baum-Welch和上述模型选择,算法1给出了本文方法的整体算法。在下一节,表格23.4.5.会同时显示这一模式的选择方法,并保持CBW方法的正确拓扑结构的能力的有效性。

figurea
表2采用Viterbi算法对合成数据采用全连通初始转移矩阵的cBW +模型选择的改进,cBW alon vs Scheffer等
表3 CBW +模型选择的改进,单独的CBW vs Scheffer等。在具有维特比算法的合成数据的正确初始转换矩阵的情况下
表4 CBW +模型选择的改进,CBW ALON VS Scheffer等人,具有完全连接的初始转换矩阵,具有后维特比算法的合成数据
表5 CBW +模型选择的改进,CBW单独VS Scheffer等。在后维特比算法的合成数据正确初始转换矩阵的情况下

结果

在这一部分中,我们使用真实的生物数据和合成数据进行实验,以测试我们解码任务的方法,并将结果与在实验室中使用该方法的结果进行比较[6.]. 据报道,[1415]后验译码通常比维特比算法性能更好。因此,为了评估我们的训练方法对解码的影响,我们使用标准Viterbi算法和训练模型对测试序列进行解码[10] [中描述的后viterbi算法15],通过在每个位置将预测标签与ground truth标签进行比较,确定正确预测的数量,从而计算出准确率:

$$\begin{aligned}精度=\frac{\\\\\\\\\\\\\\,of\,CORPORT\,predicted\,labels}{\\\\\\\\,of\,TOTALL\,labels}\end{aligned}$$

这些实验的结果表明,我们的方法在模型训练中优于Scheffer等人的方法,如改进的解码精度所证明的,无论哪种解码算法都是如此。具体地,平均而言,随着Viterbi算法,viterbi算法的缩小精度提高了33%,具有实际数据的后viterbi算法,并通过viterbi算法提高了7.35-14.06%,7.08-13.89%,与合成数据的后维特比算法有7.08-13.89%重大P.值。请注意,在两种情况下,当序列几乎完全标记(95%)或非常稀疏标记(5%),不同算法之间的差异是微不足道的。这现象是不奇怪的,因为预计部分标签的受益于充分利用减少当标签非常稀疏,这使得各种算法收敛于Baum-Welch算法,或者当序列几乎完全贴上标签,这使得各种算法收敛于最大似然。因此,我们的评估分为两个设置的合成数据。设置1时,部分标签信息为5 ~ 95%。设置2时,部分标签信息为10 ~ 90%。

合成数据

该方法中所描述[6.主要关注于使用合成数据处理文本挖掘问题。为了比较公平,我们还使用合成数据进行了实验,观察了我们的方法在不同情况下的不同表现。在合成数据的实验中,数据是由地面真值hmm生成的,它也是通过预定义的连接随机生成的。在每个实验中,过渡矩阵和发射矩阵的初始猜想大小与相应的ground truth模型相同。为了模拟蛋白质序列中的20个氨基酸,我们将隐马尔可夫模型中的符号数量固定为20个。为了测试模型复杂性如何影响训练,我们选择了三种不同数量的状态:3、5和7。此外,还将不同水平的训练样本量作为实验变量。每个实验(有固定状态数和训练样例)进行不同程度的部分标签评价,重复50次,并相应配对P.还计算值以评估我们的方法与其他方法之间的性能差异的统计学意义。由于我们的方法可以维持转换矩阵的初始猜测的拓扑,因此将实验分为两组不同的组。一个是用与地面真理模型相同的连接矩阵初始化转换矩阵,另一个用完全连接的转换矩阵初始化。

以全连通转移矩阵作为初始猜测的三组实验结果如图所示。23.4..其他结果示于表23.4.5.进行比较。

图2
figure2

对比结果1与全连通转移矩阵状态数= 3、训练样数= 1600初始化时的合成数据。训练方法:Ground truth model-black;cBW-green;生化武器+ model_selection-blue;雅伯al.-red。译码方法:Viterbi-cross tick mark;posterior-Viterbi-circle刻度线。由Matlab 2020a生成

图3.
图3

对比结果2与全连通转移矩阵初始化时的合成数据状态数= 5,训练样本容量= 1600。训练方法:Ground truth model-black;cBW-green;生化武器+ model_selection-blue;雅伯al.-red。译码方法:Viterbi-cross tick mark;posterior-Viterbi-circle刻度线。由Matlab 2020a生成

图4.
装具

对比结果3与用全连通转移矩阵初始化时的合成数据状态数= 7,训练样本容量为1600。训练方法:Ground truth model-black;cBW-green;生化武器+ model_selection-blue;雅伯al.-red。译码方法:Viterbi-cross tick mark;posterior-Viterbi-circle刻度线。由Matlab 2020a生成

使用状态,训练示例,并且不同的解码算法的不同数量进行的,结果表明,我们的方法优于通过雅伯等人的方法。通过在不同的百分比未标记的数据,有显著7.08-14.06%P.值(< 0.05)为大多数实验。虽然两种方法实现的性能接近地面实况模型部分标签的水平增加,改进我们的方法在雅伯等人的方法是更明显稀疏部分标签时,即未标记的数据是高水平的,如轴的数据所示。例如,在Fig。2,通过维特比解码,在70%未标记数据(即30%部分标记)的水平上,我们的方法达到了62%的准确度,这是基础真相模型准确度的98%,而Scheffer等人的方法达到了54%的准确度,这是基础真相模型准确度的85%。无花果也是如此。3.4.当模型有5个和7个状态,无论使用的解码算法如何。

真实数据

对于真实的生物数据,我们采用了[16].数据包含83个多通跨膜蛋白,具有完整的标签信息。多通跨膜蛋白的拓扑如图2所示。5.. 每个序列的标签包含三个不同的值:一世O.m.它们分别代表细胞膜内、细胞膜外和跨膜结构域的蛋白质序列区域。而更为复杂的隐藏马尔科夫模型已被用于建模跨膜蛋白质拓扑结构[16171819[本研究中使用简单的HMM,主要评估部分标签的新培训算法。HMM的架构如图2所示。6.,其中一个冗余m\ (^ \ ' \)Node作为一种简单的机制引入,以避免状态路径,例如iiiimmmmiiioooommmoooo,即不对应于跨膜蛋白的实际拓扑结构,其中的膜结构域具有由侧接一世一边O.在另一边。因此,转移矩阵是4乘4,对应于四种状态。请注意,跨膜状态的氨基酸发射频率是通过将M和M'状态的计数或期望值集中计算得出的。我们在不同的初始条件下建立了两个不同的实验:(1)转移矩阵有正确的零点作为基础真值模型(2) 转移矩阵是完全连通的。我们设置了条件(2)的实验,因为该方法[6.]在训练过程中不能强制初始零保持为零,因此条件(2)在没有先验知识的情况下,对两种方法进行了更公平的比较。HMM由这两种不同的方法在一个10倍交叉验证方案中训练。训练示例中不同级别的无标记数据是通过为每个序列随机选择无标记位置来实现的。由于没有地面真值模型,本文采用完全标记训练数据的最大似然法来模拟地面真值模型在合成实验中的作用。

图5.
figure5

多通跨膜蛋白蛋白红线代表细胞膜外的蛋白质序列,蓝线代表细胞膜内的蛋白质序列,绿线表示蛋白质序列的跨膜结构域。由Google图纸生成

图6.
figure6

多通道跨膜预测状态的4态HMM拓扑结构一世O.分别代表内部和外部膜。两个都mm\ (^ \ ' \)代表跨膜结构域,冗余m\ (^ \ ' \)用于避免状态之间的直接连接一世O.,这是不可能的。由Google图纸生成

对于条件(1),结果如图。7.由33.59%用维特比算法和后路-Viterbi算法36.16%表明我们的方法(受约束的Baum-韦尔奇与模型选择)优于其他方法(雅伯等人)。对于条件(2),在图中所示的结果。8.证明我们的方法与维特比算法的33.20%以33.20%优于33.20%,带有后维特比算法36.32%。对于这两个条件,我们有或没有模型选择技术和最大可能性的方法的性能非常接近。

图7.
figure7

与真正的数据比较,当与图3中的正确的连接的转换矩阵进行初始化。5..训练方法:ML-black;cBW-green;生化武器+ model_selection-blue;雅伯al.-red。译码方法:Viterbi-cross tick mark;posterior-Viterbi-circle刻度线。由Matlab 2020a生成

图8
figure8

使用完全连接的转换矩阵初始化时的实际数据的比较结果。训练方法:ML-black;cBW-green;生化武器+ model_selection-blue;雅伯al.-red。译码方法:Viterbi-cross tick mark;posterior-Viterbi-circle刻度线。由Matlab 2020a生成

讨论

从实验结果与表中的合成数据23.4.5.(1).有或没有模型选择技术的约束Baum-Welch算法的性能显著优于Scheffer等人[6.]; (2). 受约束的Baum–Welch得益于具有正确的拓扑结构(表的第4列之间的比较23.);(3).使用模型选择技术时,约束Baum-Welch算法表现较好,特别是当任务比较困难时(表中第2列和第4列比较);(4).在不考虑训练方法的情况下,后维特比译码的性能总是优于标准维特比(如图所示)。23.4.7.8.).

从实验结果与实际数据的结果,有或没有模型选择的受约束的BAUM-Welch的性能非常接近不同百分比的部分标签的最大似然方法。然而,在未标记数据的百分比大于10%之后,Scheffer等人的表现显着。背后的原因是Scheffer等人的方法。即使初始猜测是正确的,也无法强制执行正确的拓扑。特别是对于此问题,具有正确拓扑的HMM是更高准确性的关键。

此外,有几点值得一提的那些谁可以考虑使用这种方法为他们的应用程序的好处。首先,保持正确的拓扑结构的能力使得CBW方法更复杂的HMM,如型HMM兼容。然而,作为一个权衡,训练时间可以显著增加。第二,模型选择技术,虽然可选的,强烈建议用后的维特比而不是标准维特比用于最佳解码性能。最后,我们的方法特别适用于检测从头导向信号,其任务不承担任何充分标记序列一般可设计。对于放宽限制的情况:一些完全标记序列是可用的,我们的方法不是唯一的选择,有兴趣的读者也可以考虑在[方法9.].

结论

在这项工作中,通过修改标准的Baum-Welch算法,我们开发了一种新的训练方法,该方法连同模型选择方案,能够利用数据中的部分标签来改进隐马尔可夫模型的训练。与同类方法相比,该方法在训练隐马尔可夫模型方面取得了显著的改进,无论是对合成数据还是真实的生物序列数据都有较好的解码性能。

对于未来的工作,我们将进一步调查该培训方法对检测De Novo主题和生物数据信号的影响。特别是,我们计划在活动学习模式下部署到正在进行的检测PlasmodesMata靶向信号的持续研究,并评估湿实验室实验的验证性能。

数据和材料的可用性

数据集和源代码在网上自由使用https://www.cis.udel.edu/~lliao/partial-label-hmms.

缩写

隐马尔可夫模型:

隐藏的马尔可夫模型

PDLP:

胞间连丝定位蛋白

CBW:

约束Baum-Welch算法

新兴市场:

期望最大化

参考

  1. 1.

    Baum Le,Petrie T.有限州马尔可夫链的概率函数的统计推断。安数学统计数据。1966; 37(6):1554-63。

    文章谷歌学者

  2. 2.

    Baum Le,Eagon Ja。利用应用于Markov过程的概率函数和生态学模型的统计估计的不等式。公牛am math soc。1967年; 73(3):360-3。

    文章谷歌学者

  3. 3.

    鲍姆勒,塞尔格。流形上函数的增长变换。Pac J数学。1968;27(2):211–27.

    文章谷歌学者

  4. 4。

    马氏链概率函数统计分析中的一种最大化方法。acta mathematica sinica, 2010;41(1): 164-71。

    文章谷歌学者

  5. 5.

    马氏过程中概率函数统计估计的一个不等式和相关的最大化技术。不平等。1972;3:1-8。

    谷歌学者

  6. 6.

    谢弗T、德科曼C、沃贝尔S。信息提取的主动隐马尔可夫模型。年:智能数据分析国际研讨会。斯普林格;2001年,第页。309–18.

  7. 7.

    Lee J-Y,Wang X,Cui W,Sager R,Modla S,Czymmek K,Zybaliov B,Van Wijk K,Zhang C,Lu H等人。局部局部化蛋白质在拟南芥中介导串扰与细胞对细胞通信和先天免疫之间的串扰。植物细胞。2011; 23(9):3353-73。

    CAS文章谷歌学者

  8. 8.

    Li J,Lee,J-Y,Liao L.检测De Novo Plasmodesmata靶向信号并识别Pd靶向蛋白。:生物与医学科学的计算进步国际会议。斯普林克;2019. p。1-12。

  9. 9。

    杆状病IA,索里戈斯KD,Theodoropoulou MC,Kontou Pi,Bagos PG。生物序列分析中隐马尔可夫模型的半监督学习。生物信息学。2019; 35(13):2208-15。

    CAS文章谷歌学者

  10. 10.

    Rabiner L,Juang B.隐藏马尔可夫模型的介绍。IEEE ASSP MAG。1986; 3(1):4-16。

    文章谷歌学者

  11. 11.

    Viterbi A.卷积码的错误界限和渐近最佳解码算法。IEEE Trans Inf理论。1967年; 13(2):260-9。

    文章谷歌学者

  12. 12.

    Bagos PG, Liakopoulos TD, Hamodrakas SJ。在HMMS中加入先验拓扑信息的算法:跨膜蛋白的应用。BMC Bioinform。2006;7(1):189。

    文章谷歌学者

  13. 13。

    Juang B-H,拉宾LR。估计隐马尔可夫模型参数的分段k-均值算法。IEEE跨声语音信号处理。1990;38(9):1639–41.

    文章谷歌学者

  14. 14。

    凯尔,克罗,索恩哈默尔。一种用于序列特征预测的hmm后验解码器,包括同源信息。生物信息学。2005;21(补充1):251-7。

    文章谷歌学者

  15. 15。

    Fariselli P, Martelli PL, Casadio R.一种新的隐马尔可夫模型解码算法改进了全β膜蛋白拓扑结构的预测。BMC Bioinform。2005;6(4):1 - 7。

    谷歌学者

  16. 16

    卡萨里,高G,廖L。一种改进的跨膜蛋白检测和拓扑预测隐马尔可夫模型及其在完整基因组中的应用。生物信息学。2005;21(9):1853–8.

    CAS文章谷歌学者

  17. 17

    Sonnhammer el,von heijne g,krogh a等。用于预测蛋白质序列中跨膜螺旋的隐马尔可夫模型;1998年。

  18. 18

    KällL,克罗A,Sonnhammer EL。合并的跨膜拓扑结构和信号肽预测的phobius web服务器的优点。Nucl酸res。2007; 35(增刊2):429-32。

    文章谷歌学者

  19. 19。

    Hayat S,Peters C,Shu N,Tsirigos KD,Elofsson A.包含Dyad-Repect Patters改善了跨膜的拓扑预测\(\ beta \)桶的蛋白质。生物信息学。2016;32(10):1571 - 3。

    CAS文章谷歌学者

下载参考

致谢

作者非常感谢匿名审稿人提供的宝贵意见和建议,特别是让他们注意到后维特比解码。

资金

该工作由国家科学基金会NSF-MCB1820103资助。资金机构在本研究的设计,收集,分析,数据解释和写作中没有作用。

作者信息

从属关系

作者

贡献

Jyl和LL设计了项目,JL和LL设计了算法,JL实现了算法,并通过Jyl和LL的建议进行了实验。所有作者都读过并批准了稿件。

相应的作者

对应于李廖

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有用入数据的信用额度。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

李,J.,李,JY.&廖,L。一种训练具有部分标记的生物序列隐马尔可夫模型的新算法。欧宝娱乐合法吗22,162 (2021). https://doi.org/10.1186/s12859-021-04080-0

下载引用

关键字

  • 隐藏的马尔可夫模型
  • 部分标签
  • 受限的BAUM-WELCH算法
  • 生物序列
\