跳到主要内容

确定导致心理创伤和社交回避由GCN-Xgboost疾病

抽象的

背景

随着医疗的快速发展,许多患者不仅考虑生存时间,还要关心生活质量。治疗后和治疗后的身体,心理和社会功能的变化导致患者及其家人对此产生了很多麻烦。基于生物心理社会医学模型理论,心理健康在治疗中发挥着重要作用。因此,医务人员有必要了解具有造成心理创伤和社会避免(PTSA)的高潜力的疾病。

结果

首先,我们得到的疾病,其可以从文献中引起PTSA。然后,我们计算出相关的疾病的相似性建立一个疾病网络。疾病之间的相似性是基于它们已知的相关基因。然后,我们从UniProt的得到这些疾病相关的蛋白质。这些蛋白质提取为疾病的特征。因此,该疾病网络中,每个节点表示的疾病和包含其相关蛋白质的信息,并且所述网络的边缘的疾病的相似性。然后,曲线图的卷积网络(GDN)被用来编码所述疾病网络。通过这种方式,每一种疾病本身的特点及其与其他疾病的关系进行了提取。最后,Xgboost被用来确定PTSA疾病。

结论

我们开发了一种新的方法“GCN Xgboost”,并将其与一些传统方法进行了比较。使用留一交叉验证,AUC和AUPR高于现有的一些方法。此外,还进行了案例研究,以验证我们的结果。我们还讨论了乳腺癌患者急性生存期的社交回避和痛苦轨迹。

背景

当人们体验一些突然疾病,灾难性伤害或性暴力时,它们可能会产生创伤后应激障碍(PTSD)[1]这是一系列的精神紊乱。PTSD是一种延迟心的反应,这是很难克服的。据报道,创伤后应激障碍的患病率[2]为约2.5%。PTSD可以由许多突发性,灾难性造成,或威胁的事故,如交通事故,战争,疾病,亲密的朋友死亡。

由于医疗保健的高度发展,现在各种疾病都可以治疗了。患者不仅需要增加生存时间和存活率,还需要健康的心态。据报道,从主要疾病中幸存下来的患者有很高的精神问题风险。这些精神问题是神经外科疾病[3.4.]这给他们的家庭和社会带来沉重的负担。乳腺癌是女性最常见的恶性肿瘤是一种创伤,这些疾病的[5.].注释治疗,如乳房切除术和化疗很容易造成心理,精神和经济问题。如果这些问题得不到有效解决,不仅自尊和生活质量会受到影响,而且存活时间[6.].研究人员发现人们害怕加入社交活动,在经历乳腺癌后,它们易于抑郁。这主要是由于对女性气质的丧失引起的,这可能导致自尊和悲观。

研究还指出了创伤的益处。tedeschi和calhoun [7.]开发名为“创伤后成长(PTG)”的新的概念。他们发现了一些负面情绪,有时能给人积极的心理变化。

然而,研究人员主要集中在疾病和忽视的疾病[带来的PTSA8.].至少,我们应该知道可能导致前期的疾病。然而,寻找这种疾病需要调查数百名患者,这是时间和金钱。因此,在本文中,我们开发了一种计算方法,以识别基于疾病相似性导致前期患者的疾病。越来越多的研究发现类似的疾病通常是由类似的分子引起的[9.10].因此,他们可以通过类似的生物标记物或表型进行诊断,并可以通过类似的药物可以治愈。在本文中,我们提出了一个假设:相似的疾病也会造成类似的心理问题。2004年,科德宝集团和支撑获得从在线人类孟德尔遗传(OMIM)的疾病表型,并用它们来计算的疾病相似。近年来,表型的数量正在增加,这促使科学家开发出在表型水平更多的方法来衡量疾病相似。由于基于分子测序技术,测量病相似的快速发展,现在很受欢迎。许多研究人员计算出基于基因疾病相似。mRNA表达数据和蛋白质的相互作用被用来通过Suthram等人计算疾病的相似性。[11].Cheng等[12]发展了“SemFunSim”方法,该方法考虑了基因功能网络来计算疾病相似性。

深层学习方法广泛应用于生物信息学[领域1314151617现在]。由于我们可以构建疾病网络,所以我们使用了图卷积网络(GCN) [18]从网络中提取的特征。最后,我们可以找出由Xgboost导致PTSA疾病。

结果

数据描述

首先,我们绘制了图。1以显示疾病的相似性。正如我们在图所示的那样。1中,所有相似的66%比0.1低。只有少数相似度都大于0.5。

图。1
图1

比较结果

如图所示。2,一些蛋白质与多于1000种疾病,而一些蛋白质仅具有小于100种疾病相关。因此,功能是稀疏。

图2
图2.

GCN-Xgboost框架

比较实验

由于已知只有23种疾病会导致PTSA,因此我们使用遗漏一种交叉验证来测试GCN Xgboost的性能。我们将所有疾病分为23组。对于每一次,我们使用一种已知疾病和一组未知疾病作为测试数据集,其余的是训练集。

我们将我们的方法与支持向量机(SVM),人工神经网络(ANN),深神经网络(DNN)和随机林(RF)进行了比较。数字4.显示结果的AUC和AUPR。

正如我们从图中看到的那样。3.GCN Xgboost在这五种方法中表现最好,AUC为0.97,AUPR为0.78。第二个最好的方法是DNN,因为它可以从稀疏数据中学习复杂的非线性关系。支持向量机是最差的,因为它不能处理高维特征。

图3.
图3.

病相似的分布

GCN的力量

虽然GCN-Xgboost在这些方法中表现最好,但我们仍然想知道原因。因此,我们只使用Xgboost来鉴定引起PTSA的疾病,并与GCN-Xgboost的结果进行比较。

结果示于表1

GCN-Xgboost和Xgboost之间表1比较

正如我们在表中所看到的1,AUC使用GCN后没有太大变化,但AUPR改变了很多。XGBoost的AUPR仅为0.61,但GCN-XGBoost为0.78,这意味着GCN-XGBoost可以减少假阳性。由于GCN编码了疾病的相似之例,因此提供了更多信息,因此该方法可以更好地执行。

案例分析

在验证了GCN Xgboost的有效性后,我们使用它来识别可能导致PTSA的疾病。因此,所有阳性疾病均作为阳性样本。随机选取100种未知疾病作为阴性样本建立模型。我们发现228种疾病被确定为导致PTSA的疾病。

要验证我们的结果是否正确,我们搜索了文献以进行案例研究。

Flatt等人。[19.]报道称,阿尔茨海默病极有可能引起PTSD。此外,他们还发现患有PTSD和抑郁症的人患痴呆症的风险是正常人的两倍。

yi-frazier等。[20.发现,2型糖尿病的青少年的家庭和个体正在经历重大的心理压力。

PTSA乳腺癌

乳腺癌患者处于高风险,即PTSA,这是一个众所周知的事实。

从二月2017至17年十月,通过在山西省肿瘤医院乳腺外科随机抽样选择符合条件的200例乳腺癌患者。获得书面知情同意书后,训练有素的研究人员填写每个患者的问卷调查。

所有入选患者符合以下四个条件:(1)乳腺癌患者通过病理检查确诊,并同意乳房切除术;(2)age ≥ 18 years; (3) all the patients have received primary school or higher education and are able to communicate effectively; (4) they are awareness of diagnosis and voluntary participation.

如果患者符合以下4条件之一,则被排除:(1)它们具有并发症,如心脏病,高血压和肾病;(2)他们有其他恶性肿瘤;(3)它们正在接受精神障碍的抗精神病药。

调查问卷包括:(1)基本信息:年龄,职业,教育,退休地质,医疗保健支付方式,婚姻状况,宗教和更年期状态;(2)疾病相关数据:乳腺量,脱发的严重程度,乳腺癌家族史以及对侧预防性乳房切除术的意愿;(3)配偶的基本信息:年龄,国籍,宗教,教育,占用和退休地位。

社会回避及苦恼量表(SADS)21.]由Watson和朋友在1969年它由14个项目测量社交回避和14项测量社会窘迫显影。每个项目可以用“是”或“否”来回答。避免和苦恼量表的可靠性分别0.87和0.85,。每个项目得分相加,获得总成绩。如果总得分高于9,患者正在遭受社会回避及苦恼。The total score for healthy individuals in China is 8.03 ± 4.86.

罗森堡在1965年开发的自尊量表(SES)是由10个项目组成。The items are rated by a four-point scale, where 1 = strongly agree, 2 = agree, 3 = disagree, and 4 = strongly disagree. Therefore, the total score ranges from 10 to 40. If the total score is lower than 25, the patient is low self-esteem. 26–32 represents moderate self-esteem, and 33 or higher represents high self-esteem. It is the most commonly used instrument to measure self-esteem in China.

Alopecia was graded according to National Cancer Institute Common Terminology Criteria for Adverse Events (NCI-CTCAE) 4.0 (grade 0: no alopecia; grade 1: hair loss < 50%, which is only visible close by and may need to be covered by different hairstyle; grade 2: hair loss > 50%, which needs to be covered by wigs or hats.

乳房体积被定义为文胸罩杯尺寸,即,上和下胸部圆周之间的差。罩杯尺寸被记录为A至E.

考虑到患者的人数将随访期间下降,样本量增加了20%。共有800份问卷,在四个回合的调查。

四个回合的脸对脸调查是由训练有素的研究人员进行的。患者被分成4组基于所述四个阶段处理:乳房切除术后诊断后但乳房切除术前(1),(2),但在化疗中间(在第二周期),(4)在化学疗法,(3)前化疗结束。共有192例患者完成所有的四轮调查,共有768个有效问卷收集。

如表所示2,问卷的结果表明急性生存期四个阶段的得分显着差异。四个阶段的平均得分为12.87±5.71,显着高于中国的健康个体(T = 11.741,P. < 0.001).

表2四个阶段社会避税和痛苦分数的比较

如表所示3.,统计学分析显示急性生存的四个阶段的自尊的显着差异(表3.)。在自尊心低的患者中,乳房切除术后患者的数量,但化疗前最大(28.1%)。从那时起,自尊心低的患者的数量下降,而自我尊重的患者的数量增加。

表3中的四个阶段自尊变化

表格中显示了社会避税和遇险的单变量分析的结果4..乳房大小,对侧预防性乳房切除术,自尊和配偶教育的意愿是导致社会避免和痛苦造成显着差异的因素。

表4社交回避与抑郁的单因素分析

For multivariate analysis, variables are defined as follows: breast size: 0 = A cup, 1 = B cup, 2 = C cup, 3 = D + E cup; spouse education: 1 = primary school and below, 2 = junior high school, 3 = senior high school/technical secondary school, 4 = university and above; self-esteem scale: 0 = low, 1 = moderate, 2 = high; and willingness for contralateral prophylactic mastectomy as gene mutation carriers: 1 = yes, 0 = no. The results are shown in Table5.

表5社交回避与抑郁的多因素logistic回归分析

与初等教育及以下的配偶相比,高中/技术教育配偶的保护因素,以避免社会回避。与自卑相比,适度的自尊是为了避免社交回避的保护性因素。对侧乳房预防性的基因突变携带者的意愿是社会回避的一个危险因素。

讨论

乳腺癌患者在急性生存期间经历严重的社会避免和痛苦,特别是在乳房切除术和化疗之间的阶段。乳房切除术可以诱导心理和身体压力。此外,女性气质的操作后,加剧了亏损的困境。化疗引起的乳腺损失和脱发,恶心和弱点严重影响了患者的情绪。他们甚至可能担心被别人不喜欢,从而避免社会互动。医务人员应与患者的家庭合作,了解和支持患者,为他们创造一个轻松和积极的环境,并提高他们对家庭和社会归属感的良好环境。

自尊是一个人在社会过程中的自我情感体验和评价。它是自我意识的核心,是心理健康的重要指标。自尊影响患者的认知、情绪、行为和心理健康。在这项研究中,在乳房切除术和化疗之间,自卑感最高的患者数量最多。这可能与自理能力下降、自我认同障碍和社会角色功能减弱有关。患者倾向于避免社会交往,对人际关系更加敏感,焦虑和苦恼。自尊是心理健康的保护因素。对现实持乐观和积极的态度可以增强韧性。医务人员应分享成功战胜疾病的成功案例,并推荐乳房重建和康复,以帮助自尊低下的患者改善自我情绪体验和评估,并鼓励他们表达自己的情绪。

有人提出,配偶对患者的外表的担忧是术后抑郁症的重要因素。配偶的负面情绪将进一步提高患者的心理负担。配偶的支持可以为患者提供积极的心理支持。本研究的结果表明配偶的教育水平可能与社会避免有关。受过良好教育的配偶可以帮助患者正确地理解和处理疾病,选择最佳的治疗计划,并为他们提供积极的心理支持,以减少它们的负面情绪。因此,医务人员应为乳腺癌患者配偶提供必要的心理和信息支持,提高他们照顾患者的能力,并鼓励和支持患者减少患者的社会避免。

这项研究的结果表明,对于基因突变携带者对侧乳房预防性避免增加社会互动或加剧社会困境的可能性。据介绍,患者单侧乳腺癌的0.5%-0.75%,每年有对侧乳腺癌的风险增加。对侧乳房切除术已被证明是有效的基因突变携带者。在这项研究中,受试者56.25%的人愿意接受对侧预防性乳房切除术。然而,这是一个危险因素是社会避免和烦恼。双侧乳房,手术创伤小的损失,增加了并发症的风险,以及财政负担导致恐惧,焦虑和抑郁。

综上所述,医护人员应关注乳腺癌患者在整个急性生存期的心理变化,特别是在乳腺切除术后和化疗中期,并给予积极的心理支持。医务人员有义务帮助患者改善自我评价,促进心理调节,增强抗应激能力。此外,虽然对侧预防性乳房切除术可以有效预防乳腺癌,但可能增加心理和身体创伤,引起或增加社交回避和痛苦,降低患者的生活质量。因此,对侧预防性乳房切除术应在严格的适应症下进行,避免过度的积极治疗。

结论

创伤后应激障碍严重威胁患者的心理健康,给社会带来负担。随着医疗技术的进步,患者不仅满足于生理治疗,也满足于心理治疗。PTSA与患者治疗后的生活质量有关。因此,有可能导致PTSA疾病的患者需要特别护理。要实现个体化治疗,首先要了解引起PTSA的疾病。然而,调查每一种疾病的数百名患者是费时又费钱的。因此,在本文中,我们开发了“GCN-Xgboost”来识别引起PTSA的疾病。

首先,我们根据相关基因计算疾病的相似性。然后从UniProt中获得相关蛋白。然后,建立了疾病网络。GCN对网络进行编码,提取每种疾病的特征。编码后,每一种疾病的特征不仅包含了它们的相关蛋白,还包含了它们与其他疾病的关系。最后,利用Xgboost建立模型,确定引起PTSA的疾病。

我们通过交叉验证验证我们的方法和我们相比,与其他现有方法的方法。验证了该方法的有效性后,我们做了个案研究,以验证我们的结果的准确性。最后,我们在乳腺癌讨论的PTSA。

方法

工作流程

数字4.显示了我们方法的工作流程。首先,我们在PubMed上搜索了引起PTSA的疾病。然后,疾病本体(DO)[22.]用于获得这些疾病相关的疾病。在那之后,使用基于基因的相似度计算方法来计算所有所获得的疾病的相似性。然后,我们可以建立基于疾病相似的疾病网络。其次,我们获得的每一种疾病相关的蛋白质从如Uniprot [23.]和我们编码这些蛋白质是疾病的特征。然后,疾病网络中的每个节点还包含有关其蛋白质的信息。然后,GCN被用来提取从疾病网络功能。最后,Xgboost被用来做分类。我们经标记的已知疾病原因PTSA为1,不知道的疾病为0。

图4
图4.

疾病相关蛋白的分布

计算疾病相似性

大部分的疾病都与基因有关。因此,我们计算出的基于基因疾病的相似性。我们通过HumanNet获得疾病相关基因[24.].每个基因相互作用都有一个对数似然评分(LLS)。首先,我们需要规范它们。

$$ LLS_ {N}(G_ {I},{G_}Ĵ)= \压裂{{LLS(G_ {I},{G_}Ĵ) - LLS_ {MIN}}} {{{LLS_最大} - LLS(G_ {I},{G_}Ĵ)}} $$
(1)

\ (g_ {}, g_ {j} \)表示我TH.和jTH.基因分别。\(LLS_ {N}(G_ {I},{G_}Ĵ)\)归一化后的LLS是否。

因此,两组基因的功能相似性得分可通过以下公式计算:

$$ SIM(G_ {I},{G_}Ĵ)= \左\ {{\开始{阵列} {* {20} L} 1 \ hfill&{I = j的} \ hfill \\ {LLS_ {N}(G_ {I},{G_Ĵ})} \ hfill&{E(I,J)\在(HumanNet)} \ hfill \\ 0 \ hfill&{E(I,J)\ notin(HumanNet)} \hfill \\?\ {端阵列}} \右。$$
(2)

\(E(I,J)\在(HumanNet)\)是指之间的交互边缘\(G_ {I} \;和\; G_ {Ĵ} \)被包括在HumanNet。

然后,如果我们想计算一个基因G和基因集之间的关联\(G = \ {G_ {1},G_ {2},\ ldots,G_ {K} \} \),我们可以使用公式。3.

$$ F(G,G)= \ mathop {\ MAX} \ limits_ {1 \文件I \文件ķ}(SIM(克,G_ {Ĵ}))\;在\ ;, G_ {Ĵ} \ G $$
(3)

k表示G.中的基因数。

最后,两种疾病可以被视为两个基因组\(G_ {1} \)\(g_ {2} \).因此,两种疾病之间的相似性可以计算如下:

$$ SIM(G_ {1},G_ {2})= \压裂{{\总和\ nolimits_ {1 \文件I \文件米} {F(G_ {2},{G_ 1I})+} \总和\nolimits_ {1 \文件Ĵ\文件N} {F(G_ {1},{G_ 2I})}}} {M + N} $$
(4)

在哪里\(g_ {1i} \)是的基因\(G_ {1} \).m表示基因的数量\(G_ {1} \)n表示中基因的数量\(g_ {2} \)

最后,由eq。4.,我们可以得到两种疾病之间的相似性。

编码方法

首先,我们在PubMed上搜索了引起PTSA的疾病。然后,我们通过DO得到更多与这些疾病相关的疾病。共发现23种可引起PTSA的疾病,这些疾病与DO中2387种疾病有关。通过Uniprot分析,我们发现这些疾病与6875种蛋白质相对应。这些蛋白质可能是每种疾病的特征。

编码方法如下:

$$F{d}=\{P{1},P{2},\ldots,P{n}$$
(5)

在哪里\(f_ {d} \)是疾病的特征。\(P_ {1} \)表示这种蛋白质是否与本病有关。如果这种蛋白质是根据如Uniprot与本病有关,P.1 = 1, otherwiseP.1 = n是我们使用的蛋白质数量。

因为我们完全获得6875种蛋白质,正应该是6875.然而,特征的尺寸将是巨大的。因此,523种最常见的蛋白被选作特征,因为它们与至少100种疾病有关。最后,正应该是在我们的方法523。因此,每种疾病都有一个特点,其尺寸为1 * 523。

通过上述方法,我们可以通过疾病的相似性和疾病特征来构建疾病网络。在该网络中,每个节点是一种疾病,每个边缘是两种疾病之间的相似性。因此,网络中有2387个节点,每个节点包含该疾病的特征。然后,GCN用于编码网络。

对于给定的图G = (五、 E),V表示节点,E表示边。GCN的目标是使用非线性函数将网络传输到输出。

$$ h ^ {(l + 1)} = f(h ^ {(l)},a)$$
(6)

\(H^{(0)}=X\),这是节点的特征。

首先,我们需要得到拉普拉斯矩阵L:

$ l = d - a $
(7)

D是度矩阵,可通过邻接矩阵A计算。

$$ {\帽子{\文本{d}}} _ {{{\文本{II}}}} {=} \总和\ nolimits_ {Ĵ} {{\帽子{\文本{A}}} _ {IJ}} $$
(8)

D是对角线矩阵。然后,我们需要规范化l如下:

$$ l ^ {sym} = d ^ {{ - \ frac {1} {2}} ld ^ { - { - { - { - \ frac {1} {2}} = i - d ^ {{ - \ frac {1{2}}} { - { - { - \ frac {1} {2}}} $$
(9)

的元素\(l ^ {sym} \)被定义为

$$ L_ {I,J} ^ {}符号= \左\ {{\开始{阵列} {* {20} L} 1 \ hfill&{I = j的\;和\; \度(V_ {I})\ 0 NE} \ hfill \\ { - \压裂{1} {{\ SQRT {\度(V_ {I})\度(V_ {Ĵ})}}}} \ hfill&{I \ NEĴ\;和\;v_{i} \;adjacent\;to\;v_{j} } \hfill \\ 0 \hfill & {otherwise} \hfill \\ \end{array} } \right.$$
(10)

利用拉普拉斯矩阵L,我们可以对图进行谱卷积。为了克服过多参数引起的欠拟合,一些学者提出了一种切比雪夫方法。在此方法中,过滤函数为:

$$克_ {{\ THETA ^ {\素}}}(\ LAMBDA)\约\总和\ limits_ {K = 0} ^ {K} {\ THETA ^ {\素} _ {K} T_ {K}(\波浪号{\ LAMBDA})} $$
(11)

在哪里\(\代字号{\ LAMBDA} = \压裂{2} {{\拉姆达_ {\最大}}} \ LAMBDA - I_ {N} \)\ (\ theta_ {k} ^ {^ {\ '}} \)表示一个切比雪夫向量。切比雪夫多项式的定义如下:

$$ T_ {K}(X)= {2xT_的k - 1}(x)的 - T_ {的k - 2}(x)的$$
(12)

在哪里\(T_ {0}(X)= 1 \)\(T_ {1}(X)= X \)

如果我们让\(\拉姆达_ {\ MAX} \) = 2, K = 1, the first-order linear approximation of spectral convolution would be:

$$g{{\theta^{\prime}}*x\approx\theta^{\prime}{0}x+\theta^{\prime}{1}(L-I{N})x=\theta^{\prime}{0}x-\theta^{\prime}{1}{1}{2}{$$
(13)

因此,GCN的输出将是:

$$ h ^ {(l + 1)} = \ sigma(d ^ {{ - { - { - \ frac {1} {2}} { - { - \ frac {1} {2}} h ^ {(l)} w ^ {(l)})$$
(14)

总的来说,经过GCN编码后,每一种疾病不仅包含了它们的蛋白质特征,还包含了它们与其他疾病的关系。

XGBoost分类

Xgboost提出由田七陈[25.].在我们的工作中使用Xgboost的主要优点是输入可以是稀疏矩阵。由于我们的特性非常稀疏,Xgboost可以处理这些特性。

由于Xgboost从梯度推进决策树(GBDT)衍生[26.,首先介绍了GBDT的工作流程。

算法:GBDT.
输入:动车组\(\ {X_ {I},Y_ {I} \} _ {{}} ^ {N} \)\(Y_ {I} \在\ { - 1,1 \} \)和叶的数量的节点:J-
输出:GBDT型号\(f(x)\)
初始化:\(F_ {0}(X)= \压裂{1} {2} \日志\压裂{{1 + \划线{Y}}} {{1 - \划线{Y}}} \)
For m = 1 to M do:
计算训练集样本梯度:
\(\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} = - \压裂{{\部分L(Y_ {I},F(X_ {I}))}} {{\部分F(X_ {I})}} \)
根据列车编组\(\ {X_ {I},Y_ {I} \} _ {{}} ^ {N} \),构建CART回归树:
\(\ {R_ {JM} \} ^ {Ĵ} \)\(R_ {JM} \)是我TH.特征空间
计算各叶节点的回归值:
\ (r_ {jm} = \压裂{{\总和{_{{间在r_{我}\ {jm}}} \打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{y} _{我}}}}{{\总和{_{{间在r_{我}\ {jm}}}} \左|{\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{y} _{我}}\右|(左2 - \ |{\打翻{\ lower0.5em \ hbox{$ \粉碎{\ scriptscriptstyle \皱眉}$}}{y} _{我}}\ |)}}\)
获取模型:
f {m} \ (f {m - 1} (x) = (x) + \总和\ limits_ {j = 1} ^ {j} {r_ {jm}我在r_ (x \ {jm})} \)
结尾

损失函数和调整项:目标函数由两个部分组成。

$$Obj(\Theta)=L(\Theta)+\Omega(\Theta)$$
(15)

\(L(\ THETA)\)损失函数是什么\(\欧米茄(\西塔)\)表示函数正则化。

如果T树木被训练,该模型可以构建成以下几点:

$$\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\皱眉}}}{y}{i}=\sum\limits{t=1}{{t}{f{t}(x{i}}}$$
(16)

无论Xgboost和GBDT的基本分类器是CART,所以目标函数可能是如下:

$$的OBJ(\西塔)= \和\ limits_ {I} ^ {N} {1(Y_ {I},\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I})} + \总和\ limits_ {T = 1} ^ {T】{\欧米茄(F_ {吨})} $$
(17)

获得\(F_ {I} \)这是我们的目标。我们训练了tTH.tree based on the previous (t − 1) trees.

$$ \ {开始对准}&\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {0} = 0,\\&\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {1} = F_ {1}(X_ {I})= \溢流{\ lower0.5em \横向盒{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {0} + F_ {1}(X_ {I}),\\&\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {2} = F_ {1}(X_ {I})+ F_ {2}(X_ {I})= \溢流{\lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {1} + F_ {2}(X_ {I}),\\&\ vdots \\&\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {2} = \和\ limits_ {K = 1} ^ {吨} {{F_ķ}(X_ {I})} = \溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {Y} _ {I} ^ {吨 - 1} + {F_ T】(X_ {I}),\\ \ {端对齐} $$
(18)

因此,第tTH.目标函数为:

$$的OBJ ^ {(T)} = \和\ limits_ {I} ^ {N} {1(Y_ {I},\溢流{\ lower0.5em \ hbox中{$ \粉碎{\ scriptscriptstyle \皱眉} $}} {y} ^ {t} _ {i})} + \ sum \ limits_ {i = 1} ^ {t} {\ omega(f_ {i})} $$
(19)

然后,损失函数为:

$$ \ begined {对齐} obj ^ {(t)}&= \ sum \ limits_ {i} ^ {n} {leve({l(y_ {i},\ verset {\ develle0.5em \ hbox {$\ smash {\ scriptscriptstyle \皱眉} $}} {y} _ {i} ^ {t-1})+ g_ {i} f_ {t}(x_ {i})+ \ frac {1} {2} h_{I} {F_ T】^ {2}(X_ {I})} \右)} + \欧米茄(F_ {吨})\\&\四+ \ {\文本{恒定}} \\?\端{对齐} $$
(20)

要获得正则化术语,可以定义决策树:

$$f{t}(x)=w{q(x)},w\在R{M},q:R{d}\到\{1,2,ldots,M\}$$
(21)

其中,q()可以决定输入样本的节点。W表示的节点的得分。

正则长期将获得:

$$ \欧米茄(F)= \伽马M + \压裂{1} {2} \拉姆达\总和\ limits_ {J = 1} ^ {M} {瓦特^ {2} _ {Ĵ}} $$
(22)

两个都\(\伽马\)\(\lambda\)是控制模型复杂性的参数。

所以tTH.tree的目标函数如下所示:

$$ \ begined {对齐} obj ^ {(t)}&\ intave \ sum \ limits_ {i = 1} ^ {n} {leve({g_ {i} w_ {q}(x_ {i})+\ frac {1} {2} h_ {i} w_ {q} ^ {2}(x_ {i})}(x_ {i})} \ light)} + \ gamma m + \ frac {1} {2} \ lambda \ sum \ limits_{j = 1} ^ {m} {w_ {j} ^ {2}} \\&= \ sum \ limits_ {j = 1} ^ {m} {\ left({\ left({\ sum {g_ {I}} \右)w_ {j} + \ frac {1} {2} \ left({\ sum {h_ {i} + \ lambda}} w_ {j} ^ {2}} \)}} + \ gamma m \\ \结束{对齐} $$
(23)

我们可以定义\(g_ {j} = \ sum {g_ {i}} \)\({H_}Ĵ= \ {总和H_ {I}} \),则得到:

$ $ Obj ^ {(t)} = \ \ limits_总和{j = 1} ^ {M} {(G_ {j} w_ j}{+} \压裂{1}{2}(H_ {j} + \λ)w ^ {2} _ {j}) + \伽马M $ $
(24)

这里,\(w_ {j} \)是独立于其他物品,我们可以获得J的最佳分数TH.节点和最佳物镜。

$$ w_ {j} ^ {*} = \ frac {{ - g_ {j}}} {{h_ {j} + \ lambda}} $$
(25)
$$ OBJ ^ {*} = - \压裂{1} {2} \总和\ limits_ {J = 1} ^ {T】{\压裂{{G ^ {2} _ {Ĵ}}} {{{H_Ĵ} + \拉姆达}}} + \伽马Ť$$
(26)

最后,我们应该让树按照一定的规则分裂。

$$增益= \ frac {1} {2} \ left({\ frac {{g_ {{g_ {l} ^ {2}} {{h_ {l} + lambda}} + \ frac {{g_ {r}^ {2}}} {{h_ {r} + \ lambda}} - \ frac {{(g_ {l} + g_ {r})^ {2}}} {{h_ {l}} {{h_ {l} + h_ {r}+ \ lambda}}} \右) - \ gamma $$
(27)

数据和材料的可用性

本文中使用的所有数据集都可以从https://disease-ontology.org/;https://geneontology.org/

缩写

PTSA:

心理创伤与社会避免

GCN:

图表卷积网络

创伤后应激障碍:

创伤后应激障碍

PTG:

后期生长

OMIM:

人类孟德尔遗传学

做:

疾病本体

LLS:

数似然值

LSTM:

梯度增强决策树

CBSM:

认知行为压力管理

SVM:

支持矢量机器

安:

人工神经网络

DNN:

深神经网络

rf:

随机森林

工具书类

  1. 1.

    布雷温CR、克罗伊特M、海兰P、舍夫林M、梅尔克A、布莱恩特RA、胡马云A、琼斯LM、卡吉A、卢梭C。关于ICD-11建议诊断PTSD和复杂PTSD的最新证据回顾。临床心理学版。2017;58:1–15.

    文章谷歌学术

  2. 2。

    Swart S,Wildschut M,Draijer N,Langeland W,Smit Jh。具有合并分离障碍的检测到后应激障碍或PTSD分离的亚型:临床谱的比较评价。心理创伤理论RES实践政策。2019; 12:38。

    文章谷歌学术

  3. 3。

    彭Ĵ,赵T.减少TOM1表达加剧阿尔茨海默氏病。PROC NATL ACAD SCI。2020; 117(8):3915-6。

    CAS文章谷歌学术

  4. 4.

    赵T,胡Y,臧T,王Y.整合GWAS方法一样,eQTL和mQTL数据,以确定阿尔茨海默氏症相关的基因。前遗传学。2019; 10:1021。

    CAS文章谷歌学术

  5. 5。

    罗宾斯HI,约翰逊L,LoConte N,布氏K.癌症相关的认知缺损及其与PTSD。胸部。2017; 34:134。

    文章谷歌学术

  6. 6。

    赵T,张N,张Y,任J,徐P,刘Z,程力,胡Y。一种新的方法,用于在不同物种的知识库中识别前microRNA。生物医学语义。2017;8(1):30.

    文章谷歌学术

  7. 7。

    特德斯奇RG,卡尔霍恩LG。创伤后增长库存:测量创伤的正面遗产。Ĵ创伤应激。1996; 9(3):455-71。

    CAS文章谷歌学术

  8. 8。

    赵T,胡Y,臧T,诚属由LRRGD确定阿尔茨海默氏症相关的蛋白质。BMC Bioinform。2019; 20(18):570。

    文章谷歌学术

  9. 9。

    胡Y,赵T,张娜,臧T,张捷,程L.使用随机游走辨病相关的代谢产物。BMC Bioinform。2018; 19(5):116。

    文章谷歌学术

  10. 10.

    赵T,王d,胡Y,张娜,臧T,王Y.识别基于半集群阿尔茨海默病相关的miRNA。CURR基因疗法。2019; 19(4):216-23。

    CAS文章谷歌学术

  11. 11.

    Suthram S,达德利JT,蒋AP,陈R,Hastie的TJ,巴特AJ。人类疾病的相似性的基于网络的阐明揭示富含多能药物靶点共同的功能模块。PLOS计算BIOL。2010; 6(2):e1000662。

    文章谷歌学术

  12. 12.

    程莉,李杰,朱平,彭杰,王毅。SemFunSim:一种通过整合语义和基因功能关联来衡量疾病相似性的新方法。公共科学图书馆一号。2014;9(6):e99415。

    文章谷歌学术

  13. 13。

    基于深度学习有了新的特征赵T,程L,臧T,胡Y.肽主要组织相容性复合物I类结合预测。前遗传学。2019; 10:1191。

    CAS文章谷歌学术

  14. 14。

    彭Ĵ,惠W,李青,陈B,利用神经网络的miRNA-疾病关联标识昊J.基于学习的框架。生物信息学。2019; 35:4364-71。

    文章谷歌学术

  15. 15.

    佳洁P,汉生X,忠禹W,伊迪尔T,剑叶H,S.学群使用深神经网络集成的多网络拓扑用于基因功能预测。简短生物形式。2020。https://doi.org/10.1093/bib/bbaa036

    文章谷歌学术

  16. 16。

    赵T,胡Y,彭Ĵ,诚属GCN-CNN:用于优先lncRNA靶基因的一种新的深度学习方法。生物信息学。2020; 36:4466-72。

    文章谷歌学术

  17. 17。

    天翼Z,杨H,Valsdottir LR,天翼Z,佳杰P.识别基于图形的卷积网络和深层神经网络的药物靶标相互作用。简短生物形式。2020。https://doi.org/10.1093/bib/bbaa044

    文章谷歌学术

  18. 18。

    Kipf TN,威灵M.用图表卷积网络的半监督分类。arxiv预印刷品arxiv:1609.029072016年。

  19. 19。

    弗拉特JD,Gilsanz P,CP Quesenberry JR,阿尔伯斯KB,惠特默RA。创伤后应激障碍和卫生保健服务系统的成员之间的老年痴呆症的风险。阿尔茨海默氏症德门。2018; 14(1):28-34。

    文章谷歌学术

  20. 20.

    益弗雷泽JP,循证医学K,维特洛克K,罗森堡AR,Pascual的男,博勒加德N,Mitrovich C,Panlasigui N,急性糖尿病特异性Pihoker C.在轨迹的第一年中的1型糖尿病青少年及其护理人员应力诊断。Ĵ儿科杂志心理学。2018; 43(6):645-53。

    文章谷歌学术

  21. 21.

    Carver CS、Smith RG、Petronis VM、Antoni MH。乳腺癌长期存活者的生活质量:不同类型的前因预测不同类别的结果。心理肿瘤学J心理社会行为与癌症。2006;15(9):749–58.

    谷歌学术

  22. 22.

    Schriml LM,Arze C,Nadendla S,Chang Y-WW,Mazaitis M,Felix V,Feng G,Kibbe Wa。疾病本体:疾病语义集成骨干。核酸RES。2012; 40(D1):D940-6。

    CAS文章谷歌学术

  23. 23.

    财团U.通用蛋白质资源(UniProt的)。核酸RES。2007; 36(suppl_1):D190-5。

    文章谷歌学术

  24. 24。

    黄某S,金CY,杨S,金E,哈特T,马科特EM,李一HumanNet V2:对疾病研究人类基因网络。核酸RES。2019; 47(D1):D573-80。

    CAS文章谷歌学术

  25. 25。

    陈T,Guestrin C. Xgboost:一个可扩展的树增压系统。在:知识发现和数据挖掘的第22届ACM SIGKDD国际会议论文集。ACM。2016. p。785-94。

  26. 26。

    廖Z,黄Y,岳X,陆H,宣P,朱Y。使用基于机器学习的SVM和GBDT新方法对γ-氨基丁酸A型受体进行电子预测。生物医药研究院,2016年。https://doi.org/10.1155/2016/2375268

    文章PubMed.pmed中央谷歌学术

下载参考

致谢

不适用。

关于这个补充剂

本文已作为BMC生物信息学的一部分发布21卷补充16,2020:来自生物本体和知识库研欧宝娱乐合法吗讨会的选定文章2019年。补充的全部内容可在线获得//www.christinemj.com/articles/supplements/volume-21-supplement-16

资金

出版费用由山西省科技厅(201603D321056)资助。出资者必须在研究设计,数据收集和分析,决定发表或准备手稿没有作用。

作者信息

从属关系

作者

贡献

HJX写了稿件。CSY和QHZ处理数据。XFT,LW和YYM收集数据。HRW是设计实验的相应作者。所有作者阅读并认可的终稿。

相应的作者

对应于海融王

伦理宣言

伦理批准和同意参与

本研究方案经山西省肿瘤医院伦理委员会,以及所有包含患者签署知情同意书。

同意出版物

不适用。

利益争夺

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

权利和权限

开放访问本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

徐,H.,王,H.,元,C.确定导致心理创伤和社交回避由GCN-Xgboost疾病。欧宝娱乐合法吗21,504(2020)。https://doi.org/10.1186/s12859-020-03847-1

下载引用

关键词

  • 图表卷积网络
  • XGBoost.
  • 心理创伤
  • 乳腺癌
\