跳过主要内容

HIV蛋白酶耐药性的演变

摘要

背景

耐药性是限制HIV/AIDS有效抗病毒治疗的关键问题。从基因组数据预测耐药谱的计算技术可以加速适当的治疗选择。这些技术也可用于鉴定蛋白酶突变体,用于耐药性的实验研究,从而有助于开发下一代疗法。然而,很少有研究从基因型-表型数据评估耐药性的演变。

结果

机器学习对HIV蛋白酶抑制剂的耐药性进行了高度精确和稳健的分类。基因型数据被映射到酶的结构和编码使用Delaunay三角剖分。基于这种编码,并使用最小生成树来估计进化关系,显示出与野生型非常相似的突变集群。这些群集似乎是独特地进化到更具抗性的表型。

结论

使用三角测量度量和生成树导致与进化理论一致的路径。大部分路径显示分叉,即它们从不抗拒或免受不抗性的不耐性切换一次。丧失阻力的路径几乎均匀地具有远低于最低的电阻水平,而不是增益阻力或稳定的。这强烈建议在面对突变的快速速率下选择稳定性是对逆转录病毒系统抗性的选择。

背景

由于抗逆转录病毒疗法的广泛使用,选择压力很大[1]使人类免疫缺陷病毒(HIV)是学习演化的宝贵模型。艾滋病毒/艾滋病是一个主要的大流行病[2]超过3700万人被感染了。目前,约60%的受感染的人接受抗逆转录病毒治疗。抗病毒药物通过靶向病毒酶,蛋白酶,逆转录酶和整体酶,HIV进入和融合到宿主细胞来阻止病毒复制。通过选择耐药性病毒菌株,在治疗疾病的进一步进展是阻碍的。由于从RNA基因组转化为DNA,因此易于易受易置的,因此迅速突变[3.].HIV很容易形成准物种和不同的病毒株。因此,HIV具有快速进化耐药的高度变异的先决条件。除了研究耐药以促进新疗法的发展外,研究耐药的演变也有助于确定用现有方法克服耐药的最佳策略。

HIV蛋白酶是一种优秀的模型系统,因为它的尺寸相对较小,序列变体和结构的广泛数据[4].蛋白酶充当两种99-残基亚基的二聚体。实验研究[5]理论分析[6提示,许多继发性突变通过提高蛋白酶对病毒复制的有效性,有助于原抗性突变的存活。这些发现表明,初始突变引入抗性,进一步的选择提高了酶的适应度。因此,我们期望在抗性数据中看到连锁突变集,并开发了基于最小生成树的分析来检测和分析这些连锁。

本课题组和其他人之前的研究表明,机器学习可以根据HIV蛋白酶和逆转录酶的基因型数据准确预测耐药性表型[78910.11.12.13.14.].我们发现,包括使用Delaunay三角测量的序列的结构数据是机器学习特别有效的表示[15.].组合的序列和结构信息被压缩成每个突变体的单个210维载体。从本质上讲,这种方法是由蛋白质中最重要的局部接触的序列编辑距离。它几乎是一个线性度量空间[11.].简单的机器学习方法,如线性支持向量机和k-最近邻能够可靠地分类电阻数据的序列和结构编码。这种方法与其他使用复杂或深度机器学习方法的工作形成了鲜明对比[13.14.16.].它创建了使用特性的能力,而不仅仅是简单的分类或回归。

我们以前的工作[78911.15.17.]专注于开发用于预测对单一抑制剂抗性的模型。Shen等人。[11.和Pawar等[17.[展示了高于99%的分类精度。然而,许多抗性菌株对所有临床抑制剂遗失了敏感性。因此,施加机器学习以预测对多种抑制剂的抵抗力。我们以前的工作[17.[展示在一个抑制剂上培训的模型预测对其他抑制剂的响应有显着的交叉预测精度。这表明阻力机制存在共性,研究这些常见的第一步是建立描述它们的机器学习模型。然后可以使用该模型来选择表达,表征和结构分析的序列。

基因树是构建分子系统发育的主要工具[18.19.20.21.它们已被应用于艾滋病毒[22.].已经应用了大部分现有的工作来估算物种,基因复制和水平转移之间的基因流动。通常,序列距离用于估计基因之间的相似性,然后构建曲线图,反映基因之间的关系。图表是没有水平转移和基因重复的树。基因树的标准使用与本研究之间存在微妙但重要的差异,因为HIV蛋白酶基因中的突变数据不涉及物种,基因重复或水平转移之间的基因流动。本文在用效力蛋白酶抑制剂的临床治疗的选择压力下检查了物种或准形状的发作。它结合了我们对结构和序列的高效表示,利用良好的良好的算法来构建最小跨越树(MSTS)来估算HIV反应对药物的进化性质。由于该措施是线性的或几乎线性的并且具有度量属性,因此它应该是进化距离的有效代理。MSTS将作为基因树的第一个近似。

“超级抗性”的发展是一个相关的问题。朴素选择理论认为,“最初过后”突变,即那些在抑制剂存在的情况下足以让HIV复制的突变,将是被选中的大多数。如果单是耐药性就足以进行进化选择,为什么新的突变还会在蛋白酶中积累呢?然而,有许多高度耐药蛋白酶的例子,它们具有不同的多组突变,被认为可以增强病毒复制[23.].沿MSTS的抗性采集和损失模式揭示了耐药压力的选择性压力。病毒不得易于耐药,但必须在高突变率存在下保持抗性和有效的复制。

来自斯坦福HiVDB的基因型 - 表型数据

stanford数据库中的整理数据[24.]是一个有价值的计算分析资源。数据包括艾滋病毒药物靶标序列,包括HIV蛋白酶和抗性措施。定期策划和更新数据库以反映艾滋病毒的耐药性的当前状态。我们使用了本文的过滤的比目表数据[25.].

结果

阻力分类与回归

如果HIV蛋白酶序列抗性或不基于STANFORD数据库中所定义的3.0的阈值(如表所示,则线性SVM用于分类1)。除了Darunavir之外,所有抑制剂都是良好的平衡。瑞典和货号都用于培训两种不同的模型,具有三倍的交叉验证。预测的质量表明我们的数据已成功更新。桌子2显示对抑制剂成对的分类精度。注意,虽然不同抑制剂之间存在一些相关性,但它们之间存在显着差异。桌子3.显示了三倍抑制剂的结果。只有一个子集(那些与ATV)显示为节省空间,但结果是类似的所有三元与RSWED和SWED指标。

除了单一抑制剂外,还完成所有对的抗性和三元抑制剂的分类。在所有情况下,高分类准确性(\({>} \,98 \%\))是观察。因此,检验回归是很重要的,因为回归可以预测观测到的效应的大小。这是一种比二元分类更难的方法。采用随机森林回归进行预回归。数字1显示RMSE作为交叉验证的训练分数的函数。训练分数为0.66对应三倍交叉验证(2:1比),0.2对应倒五倍交叉验证(1:4比)。由于数据观测值的范围在0到100之间,即RMSE\ ({<} \)0.1对应着较高的精度。数字2显示了每对和三组抑制剂上回归的RMSE分布。相关系数在98%~99%之间。

生成树

数字3.表示随机分割数据的跨越树的跨越树。这些图中的节点表示由平均距离和计数的上三角矩阵产生的向量。这些跨越树的计算\(l_2 \)当节点分别由距离和计数向量表示时距离。具有大于3的值对于抑制剂的值的节点表示为绿色,并且不抵抗节点表示为红色。经验上,关于所有抑制剂的所有分裂的跨越树具有类似的可视化。这些树木的中心是序列在B型亚型M的标准野生型HIV-1蛋白酶序列中最多的序列与艾滋病毒的高静脉率一致,耐受耐受和易感菌株的序列相一致以类似的方式与标准序列的差异。

跨越树的路径统计

由于图中的路径或分支。3.似乎在突变历史上提前显示了对抵抗的选择,然后随着时间的推移节约,有必要检查沿树枝的阻力的行为。树根的序列靠近参考序列和耐抗性和不耐性的分支,显示越来越多的突变,因为它们从远离中心移动。路径落入五个一般类别,那些:保持低于电阻阈值,增强电阻,耐失去阻力,留在电阻阈值之上,或多次交叉阈值,创建尖刺图案。

由于数据的密度,我们通过绘制抗于高于电阻阈值的路径的分数来汇集增益,损耗和尖峰图案。数字567表示增益、损失或阻力峰值路径的散点图。图中的每个点对应着一条单独的路径。数字8示出了电阻阈值上方的路径方差的直方图。耐抗性的大多数路径具有低方差,表明电阻的大小是稳定的,因此在具有高突变率的情况下存在稳定性的选择。

讨论

本文演示了三点。首先,它表明,瑞典和货币措施仍然适用于抵抗的分类和回归。此结果很重要,因为在更新数据库时重新计算序列结构表示。其次,它表明,当用于生成MST时,这些表示似乎是用于进化或突变距离的有效代理。最后,沿着树木各个分支的抗性轨迹表明,抗性的选择压力比天真地思考更复杂。

分类和回归

通过优雅的编码,在这种情况下,SVM等简单的浅学习算法甚至可以实现高精度。本文的准确性优于我们之前实现的更好,我们假设这是由于使用更好更完整的数据。包括几何体(氨基酸位置)的特征以及标签(序列),导致用于捕获大多数基本信息的物理对象的编码。

进化距离的代理

定义两个单独基因组之间的进化距离是一个公开问题。显然,距离必须反映突变,但在艾滋病毒等高度变形的系统中,突变的直接计数可能是误导,因为恢复突变的概率相对较高。因此,包括评估个体突变的重要性的结构或生化信息应该提高准确性。SHED和RSWED措施包括结构信息。数字3.显示了与这两种措施导出的MST的可视化。树根的序列接近参考序列,而分支,耐抗性和不耐用,显示出越来越多的突变,因为它们远离中心。有趣的是,许多分支在进化期间保持抵抗力或非阻力。通常通常是初始单个或双突变变得抗性,并且电阻进一步与额外的突变进一步发展。

分支的行为

分析分析显示了几种有趣的结果。最重要的是,它表明抵抗的选择性压力很复杂。数字567显示路径长度和电阻之间的关系,这两个路径的增益和失去电阻。朴素的选择模型认为病毒会进化到有足够的抵抗力来在抑制剂存在的情况下进行复制。沿着分支或路径的阻力与这个简单模型有显著的不同。维持阻力的路径往往会增加对高水平的阻力。然而,有些路径可能表现出“尖峰”,即它们变得高度耐药,然后接近较低的耐药水平。不可避免地失去阻力的路径从来不是高阻力的。这一结果强烈地表明,有一个额外的选择压力变得高度耐药。在高突变率存在的情况下,“刚好具有足够抵抗力”的分子很容易失去抵抗力。高度耐药的蛋白酶可能需要许多突变才能失去抗性。

图1和图2中清楚。567阻力和路径长度之间存在某种结构关系。这种结构可能反映出在病毒进化过程中,具有相同根并在某个时间发生分歧的路径。作为分析这种关系的第一步,我们使用dbscan对路径进行集群[26.在python中实现的算法scikit学习[27.] 图书馆。从相同根开始的路径的相似性显示为图2中的代表性样本。4.这些点似乎位于光滑的曲线上,这表明图中所示的结构。567是由于进化期间发散的路径。

结论

一种结合结构和序列的简单测量方法对HIV蛋白酶耐药的分类和回归是非常有效的。与纯序列特征不同,浅层学习,甚至像线性支持向量机这样简单的浅层学习算法,都可以用这种表示产生准确的结果。该方法除可用于实验研究的聚类和序列选择外,还可用于计算HIV分离株之间的进化关系。我们的结果对抗性的进化提出了两个主要观点。首先,存在一种阻力守恒。分离株在早期就具有抗性,然后倾向于保持抗性。第二,随着时间的推移,隔离菌株会产生高度耐药性的选择压力。不具有高度耐药性的菌株往往会失去耐药性。这表明,对突变和变化的稳健性是进化中一个重要的选择压力。

表1 HIVPR的分类统计数据
表2使用SWED度量对抑制剂HIVpr进行分类统计
表3使用SWED度量对HIVpr抑制剂三元组的一个子集进行分类统计
图1
图1

RMSE对基于SHED编码的一个抑制器训练回归分析的数据分数的依赖性

图2
图2.

在2和3抑制剂回归分析中,计算值和观测值之间的RMSE分布。对于两种抑制剂,RMSE范围从0.04到0.1,对于三种抑制剂,RMSE范围从0.1到0.22

图3
图3.

lATV电阻的2个标准生成树。上面的面板显示基于距离的和(SWED),下面的面板显示基于计数的和(RWSED)。抗性节点和非抗性节点分别用绿色和红色表示

图4
图4.

对ATV的SEWD最短路径样本中具有相同根的路径进行分组。y轴显示每个集群中的路径数量,x轴显示高于电阻阈值的路径的比例

图5
图5.

瑞典(左)和RSWED(右)最短的路径,为ATV的阻力。y轴表示沿路径的电阻的平均值,x轴表示高于电阻阈值的路径的比例

图6
图6.

瑞典(左)和用于抗抵抗ATV的最短路径。y轴表示沿路径的电阻的平均值,x轴表示高于电阻阈值的路径的比例

图7
图7.

SWED(左)和RSWED(右)ATV阻力波动的最短路径。y轴表示沿路径的电阻的平均值,x轴表示高于电阻阈值的路径的比例

图8
图8.

瑞典(左)和RSWED(右)的最短路径的直方图,其高于ATV的阻力。1.16%的瑞典和6.8%的RSWED路径具有大于100的方差。形成第一箱的路径的直方图被描绘在每个数字的右上角

方法

本文中的方法从准备数据(数据扩展和向量生成)到机器学习(分类和回归)以及发展进化模型。由于斯坦福数据库是从先前工作中使用的版本更新而来,因此需要对数据进行新的扩展。这是馆长清理数据的一次重大更新。由于产生了新的数据,有必要证明我们的方法仍然有效。分类和回归表明,机器学习方法仍然是非常有效的。MST和对树上的分支或路径进行分析,以提供关于HIV药物压力选择的假设。我们的软件可从Github存储库获得[28.].扩展的数据集,即使在压缩后,对于存储库来说也太大了,将根据合格的研究人员的要求提供。

数据扩展

stanford dataset [24.因为HIV蛋白酶由不同的蛋白酶序列组成,在显感分析中观察到抗性[25.]对于8临床蛋白酶抑制剂FPV,ATV,IDV,LPV,NFV,SQV,TPV和DRV。提出了99-氨基酸蛋白酶单体的序列,表明与HIV-1组M亚型B的共有序列不同的那些氨基酸。序列数据中的每个位置可具有多于一种可能的氨基酸突变。这些突变被列为多个缩写以及该位置的区域的插入*和删除#。通过构建如[1中所述的所有可能序列,在单个位置进行两个或更多个替代氨基酸的序列。如[78].基因型序列由1951条扩展到414010条。当扩展的一个成员在测试集中而另一个成员在训练集中时,扩展可能会导致“串扰”。我们之前已经证明,这种影响是微不足道的[78].

矢量一代

通过从Delaunay三角测量中获取该序列的每个位置的邻居,从Delaunay三角测量中获得的每个序列产生载体。78911.15.17.].坐标的坐标\α(\ \)使用碳原子,使用三角剖分的所有弧。我们实验室的早期研究[715.表明这些就足够了。在狄洛尼三角剖分中,与远端表面接触相对应的长弧是全部弧集的一个小子集。氨基酸的其他粗糙表示,如质心,可以随着氨基酸种类的变化而高度变化。该过程的第一步是利用含有198个残基的HIV蛋白酶二聚体晶体结构中的每个氨基酸残基的位置(使用pdb entry 3oxc [29.])。根据从该文件中获得的位置坐标进行完全一旦生成Delaunay三角测量,然后我们基于该邻接矩阵获得每个序列的邻居。一种20 \ \(20 \倍)利用该邻接矩阵,通过两种不同的方法生成氨基酸矩阵:相邻氨基酸之间的平均距离和计数。由于这个矩阵是对称的,我们取这个矩阵的上三角值作为向量,其大小为210 \ \(1 \倍).计数定义了结构加权的编辑距离(SHED),平均距离定义了径向结构加权编辑距离(RSWED)。

分类和回归

斯坦福数据库管理员建议在表型分析中电阻值为3作为耐药/非耐药蛋白酶的阈值[24.我们使用了他们的推荐。作为控制,由于我们已经重新计算了具有新数据的向量,因此重复分类计算。三倍交叉验证的值显示在表中1并证明数据是成功生成的。一个抑制剂的回归RMSE作为训练集大小的函数如图所示。1.这对应于的相关系数\ ({>} \ 99 \ % \)

除了对单一抑制剂的计算外,对所有对和三元抑制剂进行相同的计算。平均分类准确性是\ ({>} \ 99 \ % \)RMSE的分布如图所示。2

使用scikit-learn在python中执行计算[27.]. 使用两棵树进行随机森林回归。分类采用线性支持向量机。报告准确性和F分数。F分数控制总体效应。

$ $ \开始{对齐}精度= \压裂{TP + TN} {TP + TN + FP + FN} \ \精度= \压裂{TP} {TP + FP} \ \回忆= \压裂{TP} {TP + FN} \ \ F {\ hbox{-}}得分= 2 \压裂{精度*回忆}{精度+回忆}\ \ \{对齐}$ $

其中Tp是真正的,tn true负,fp误报,并且fn false否定。

演化预测的生成树

使用Python networkX为SWED和RSWED向量生成最小生成树[30.] 2.2和Gephi一起观察[31.] 9.2。但是,由于NetworkX库的限制,数据迫使我们使用10%的数据子集。因此,我们使用10个随机选择的10%样本重复计算,以确保结果不依赖于特定的随机样本。在为每个抑制剂制作生成树的同时除去具有'Na'电阻值(未观察或确定的)的节点。计算跨越树木的每个分裂。计算完整图的跨越树是计算昂贵且耗时的,因此我们使用每个拆分的生成树与每个节点连接400个最近邻居的边缘。凭经验我们已经观察到,当计算出400个最近的邻居对这些分裂上的完整图表时,这种方法仅产生跨越树木的跨度树的2%不同的边缘。

从根部到跨越树木的最短路径

该跨越树的根部是表示与HIV-1组M次型B型蛋白酶的共有“野生型”序列的差异低的序列的节点。根部节点与来自共识序列的大多数变化相同或不同。然后,我们计算这些节点的最短路径到跨越树中的所有叶子。由gephi创建的生成树[31.] 9.2用强制atlas-2可视化[32.]使用35的布局重力,节点和边缘大小为10.我们已经验证了可视化对于所有其他抑制剂非常相似。

最短路径的分类

正如在结果中所指出的,这些生成树中的大多数最短路径具有从根到叶的抗性水平不是单调的序列。然而,我们对获得抗性的序列的行为感兴趣。因此,我们将最短路径分为四类:保持在阻力水平以下的路径、保持在阻力水平之上的路径、获得阻力的路径和失去阻力的路径。我们使用从根到叶的方向作为抑制剂抗性值的进展。

测量阻力路径段的阻力方差

我们感兴趣的是电阻以上最短路径段的行为,即,当路径中的节点是电阻时,电阻水平是如何变化的。为了理解这一点,我们计算了上述路径电阻的比例和这些路径节点的电阻值的方差。

可用性数据和材料

未经处理的数据集可从以下网址下载:http://hivdb.stanford.edu/pages/genopheno.dataset.html

缩写

一台电视:

阿扎那韦

DRV:

FPV:

福斯安普列那韦

IDV:

Indinavir

LPV:

Lopinavir.

NFV:

NELFINAVIR.

SQV:

Saquinavir.

TPV:

Tipranavir

PPV:

阳性预测值

艾滋病毒:

人类免疫缺陷病毒

艾滋病毒症:

艾滋病毒蛋白酶

瑞典:

结构加权编辑距离

RSWED:

径向结构加权编辑距离

支持向量机:

支持矢量机器

工具书类

  1. 1。

    世界卫生组织艾滋病毒Paget。访问日期:2019年7月31日。http://www.who.int/hiv/data/en/

  2. 2。

    Wang H, Wolock TM, Carter A, Nguyen G, Kyu HH, Gakidou E, Hay SI, Mills EJ, Trickey A, Msemburi W, et al. .1980-2015年全球、区域和国家艾滋病毒发病率、流行率和死亡率的估计:2015年全球疾病负担研究柳叶刀艾滋病毒。2016; 3(8): 361 - 87。

    文章谷歌学术搜索

  3. 3。

    HIV-1基因多样性的研究。病毒研究》2012;169(2):415 - 29。https://doi.org/10.1016/j.virusres.2012.06.015(和伴侣逆转录病毒RNA、蛋白质辅因子)。

    文章PubMed中科院谷歌学术搜索

  4. 4.

    韦伯,哈里森rw。解码艾滋病毒抗性:从基因型到治疗。Fut Med Chem。2017; 9(13):1529-38。https://doi.org/10.4155/fmc-2017-0048PMID:28791894.10.4155 / FMC-2017-0048。

    文章中科院谷歌学术搜索

  5. 5.

    Chang MW,Torbett。辅助突变在耐药HIV-1蛋白酶中保持稳定性。J Mol Biol。2011; 410(4):756-60。https://doi.org/10.1016/j.jmb.2011.03.038(艾滋病毒的结构和分子生物学)。

    文章PubMed公共医学中心中科院谷歌学术搜索

  6. 6.

    wekl TR, Hemmateenejad B.附件突变平衡了HIV-1蛋白酶在耐药中的边缘稳定性。生物工程学报。2019;88(3):476-84。https://doi.org/10.1002/prot.25826

    文章中科院谷歌学术搜索

  7. 7.

    Yu X,Weber I,Harrison R,HIV-1蛋白酶耐药预测的稀疏表示2013:342-349。https://doi.org/10.1137/1.9781611972832.38

  8. 8.

    Yu X, Weber IT, Harrison RW。利用编码三维蛋白质结构的基因型预测HIV耐药。BMC染色体组。2014;15(5):1。

    中科院谷歌学术搜索

  9. 9.

    Yu X, Weber IT, Harrison RW。鉴定HIV的代表性毒性突变体。BMC生物素。2015; 16(17):1。

    文章中科院谷歌学术搜索

  10. 10。

    杜伦EEA, Yu X, Harrison RW。FDT 2.0:提高模糊决策树归纳工具集成数据库存储的可伸缩性。2014年IEEE医疗保健和电子医疗计算智能研讨会(CICARE);2014.p . 187 - 190。https://doi.org/10.1109/cicare.2014.7007853.

  11. 11.

    沈C, Yu X, Harrison RW, Weber IT。从基因型数据自动预测艾滋病毒耐药性。BMC Bioinform。2016;17(8):278。

    文章中科院谷歌学术搜索

  12. 12.

    黄廷军,魏志伟,魏伟。利用分子相互作用能组分预测HIV-1蛋白酶耐药的研究。蛋白质结构与功能。2014;82(6):1099。

    文章中科院谷歌学术搜索

  13. 13。

    Amamuddy OS,Bishop Nt,BishopÖt。利用人工神经网络改善HIV-1对蛋白酶和逆转录酶抑制剂的折叠性预测。BMC生物素。2017; 18(1):369。https://doi.org/10.1186/s12859-017-1782-x.

    文章中科院谷歌学术搜索

  14. 14。

    萨摩亚,瓦斯曼二世。HIV-1蛋白酶和逆转录酶耐药性序列和结构模型。BMC基因组。2013; 14(4):3。

    文章谷歌学术搜索

  15. 15.

    博士,博士,博士生导师。用图上的函数编码蛋白质结构。2011年IEEE国际生物信息学与生物医学研讨会(BIBMW);2011.338 - 44页。https://doi.org/10.1109/BIBMW.2011.6112396

  16. 16.

    Ramon E,Belanche-MuñozL,Pérez-烯虫M. HIV耐药性预测加权分类内核功能。BMC生物素。2019; 20(1):410。

    文章中科院谷歌学术搜索

  17. 17.

    Pawar SD,Freas C,Weber It,Harrison RW。HIV蛋白酶耐药性分析。BMC生物素。2018; 19(11):362。

    文章中科院谷歌学术搜索

  18. 18.

    惠誉WM。人类血红蛋白和载脂蛋白a-i中13个循环,11个氨基酸重复的交叉过程所限制的系统发育。遗传学1977;86(3):623 - 44。https://www.genetics.org/content/86/3/623.full.pdf.

  19. 19.

    Szöllősi GJ, Tannier E, Daubin V, Boussau B.基因树与物种树的关系。系统医学杂志。2014;64(1):42 - 62。https://doi.org/10.1093/sysbio/syu048

    文章中科院谷歌学术搜索

  20. 20。

    拉斯穆森医学博士,凯利斯医学硕士。一种快速准确重建基因树的贝叶斯方法。摩尔生物进化。2010;28(1):273–90.https://doi.org/10.1093/molbev/msq189.

    文章PubMed公共医学中心中科院谷歌学术搜索

  21. 21。

    哈德逊河,斯莱特金河,麦迪森WP。从DNA序列数据估计基因流动水平。遗传学。1992;132(2):583–9.

    PubMed公共医学中心中科院谷歌学术搜索

  22. 22。

    在人类免疫缺陷病毒1型患者的病毒准种中,最近和祖先的核苷酸序列共存。中华流行病学杂志。2004;85(2):399-407。

    文章中科院谷歌学术搜索

  23. 23。

    高耐药的HIV-1蛋白酶及其抑制策略。Fut Med Chem. 2015; 7:1023-38。

    文章中科院谷歌学术搜索

  24. 24。

    Rhee S-Y,Gonzales MJ,Kantor R,Betts BJ,Ravela J,Shafer RW。人免疫缺陷病毒逆转录酶和蛋白酶序列数据库。Nucl酸res。2003; 31(1):298-303。

    文章中科院谷歌学术搜索

  25. 25。

    Phenosense过滤数据。https://hivdb.stanford.edu/download/GenoPhenoDatasets/PI_DataSet.txt.2019年7月15日访问。

  26. 26。

    凌射射。论k簇的理论与构建。计算J. 1972; 15(4):326-32。

    文章谷歌学术搜索

  27. 27.

    Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, Blondel M, pretenhofer P, Weiss R, Dubourg V, et al.;Scikit-learn: Python中的机器学习。J Mach Learn Res. 2011;12(10月):2825-30。

    谷歌学术搜索

  28. 28.

    HIV蛋白酶耐药性的演变。https://github.com/hithisisdhara/hiv_protease..2019年9月1日访问。

  29. 29.

    Tie Y,Kovalevsky Ay,Boross P,Wang Y-F,Ghosh Ak,Tozser J,Harrison RW,Weber It。HIV-1蛋白酶和突变体V82a和Saquinavir的原子分辨率晶体结构和I84V。蛋白质结构功能生物素。2007; 67(1):232-42。https://doi.org/10.1002/prot.21304

    文章中科院谷歌学术搜索

  30. 30.

    Hagberg A,Schult D,Swart P,Conway D,Séguin-Charbonneau L,Elison C,Edwards B,Torrent J. Network;2013年http://networkx.github.io/index.html

  31. 31。

    Bastian M,Heymann S,Jacomy M. Gephi:用于探索和操纵网络的开源软件。:第3次国际博客和社交媒体会议;2009年。

  32. 32。

    Forceatlas2,为Gephi软件设计的用于方便的网络可视化的连续图布局算法。PLoS ONE。2014; 9 (6): e98679。

    文章中科院谷歌学术搜索

下载参考

确认

这项研究得到了美国国立卫生研究院1AI150461基金(ITW和RWH)的部分支持。

关于这个补充剂

本文已作为BMC Bioinformatics Volume 21 Supplemen欧宝娱乐合法吗t 18, 2020: Proceedings from the 8th Workshop on Computational Advances in Molecular Epidemiology (CAME 2019)的一部分发表。该补充的全部内容可在网上找到//www.christinemj.com/articles/supplements/volume-21- supplement-18

资金

本补编的出版由国家卫生大学授予AI150461和格鲁吉亚州立大学资助。

作者信息

隶属关系

作者

贡献

DS计算了开发的MSTS,DS,CF和RWH,并执行了机器学习,而ITW提供了生物化学和结构背景。所有作者阅读并认可的终稿。

通讯作者

通信罗伯特W.哈里森

伦理宣言

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

Shah,D.,Freas,C.,Weber,I.t.等等。HIV蛋白酶耐药的进化。欧宝娱乐合法吗21,497(2020)。https://doi.org/10.1186/s12859-020-03825-7

下载引用

关键词

  • 艾滋病毒蛋白酶
  • 耐药性
  • 机器学习
  • 进化