跳到主要内容

从文学中挖出中风知识图

摘要

背景

脑卒中具有发病急且死亡率高,使其成为世界上最致命的疾病之一。其基本生物学和治疗方法已在“西方”生物医学与中国传统医学(TCM)被广泛研究两者。然而,这两种方法往往是研究和日晒报道,无论是在文学和相关数据库。

结果

为了帮助研究找到有效的预防方法和治疗方法,我们整合了文献和一些数据库(如CID、TCMID、ETCM)的知识。我们采用了一套生物医学文本挖掘(即命名实体)方法,对来自生物医学和中医领域的大量笔画论文中的基因、疾病、药物、化学物质、症状、中草药和中成药等内容进行了识别。然后,结合基于规则的方法和预先训练的BioBERT模型,我们提取并分类文献中表达的中风相关实体之间的链接和关系。我们构建了StrokeKG,一个包含9种类型的近46 k个节点和30种类型的157 k个链接的知识图,连接疾病、基因、症状、药物、途径、草药、化学、成分和中成药。

结论

我们的中风KG可以提供实用且可靠的中风相关知识,以帮助有关的中风相关的研究,如探索中风研究和毒品重新扫描和发现思想的新方向。我们让Stokekg自由地获得http://114.115.208.144:7474/browser/(请直接按“连接”)及笔划的来源结构化数据https://github.com/yangxi1016/Stroke

背景

卒中,又称脑血管意外(CVA),是一个有三个主要类型的一组疾病(出血性中风,缺血性中风和TIA短暂性脑缺血发作)和脑梗死是最常见的表型1.].在过去的几十年,中风治疗和预防脑卒中减少死亡率已经看到特别显著的进步[2.].西医治疗,例如药物注射及血管内治疗[3.],以及中医疗法,如草药和针灸[4.为预防中风和中风后的康复做出了巨大的努力。然而,中风仍然是世界上最严重的致命疾病之一(第二大死亡原因)[5.由于急性发作,对幸存者来说,康复带来巨大的经济负担。因此,有必要进一步研究潜在的致病基因、危险因素和中风先兆症状,以找到有效的预防和治疗方法。

有一些现有的结构化知识来源专注于中风[6.,7.,8.].尽管如此,科学文章中还是有大量与中风相关的信息。例如,最近搜索“中风在PubMed上发表了327k多篇论文。在本研究中,我们的目标是将从这些科学论文中提取的信息与现有知识库相结合,建立一个与中风相关的知识库。大量的文本需要自动化和计算方法从这些非结构化数据中提取有用的信息,以建立结构化数据库。

知识图谱[9]在图书馆和信息行业被广泛称为知识领域可视化或知识领域映射图[10].它们通常表示为一系列与发展进程和知识结构之间的关系,不同的图形。可视化技术是用来描述,分析,构造和显示的知识和相互关系[11].这种代表性方法可以促进对生物医学实体关系的理解,这对于科学研究人员来说至关重要,以改善其研究范围和改善个性化医学。也可以发现新知识(例如,新药[12]及有效的预防/治疗方法[13,14])。然而,手工构造KG是一个费力且耗时的过程。因此,已经使用了自动化方法来辅助特定领域知识图的自动化/半自动化构建[15,16].

在本文中,我们通过组合从这些科学论文和现有知识库中提取的信息来介绍与行程相关的知识图(Strokekg)。除了生物医学实体外,我们还从中医(TCM)中添加实体[17]它密切关注人体整个系统的医学特征,使其成为治疗中风的有希望的候选者[18]. 我们使用一套工具来提取基因、疾病、药物、症状、中草药和其他实体,并使用关系提取方法将它们联系起来。因此,StrokeKG包括9种类型的46983个节点和30种类型的157302个关系,它们连接疾病、基因、症状、药物、通路、中成药(CPMs)、草药、化学物质和成分。此外,我们通过对现有数据库的验证和手动注释,标记了265个CPM实体和404个CPM疾病关系,以提供实用和准确的中风相关知识。该图可用于促进我们对这一复杂疾病的理解,例如,通过探索中风的先兆症状和后遗症、治疗药物以及治疗相关疾病的途径。

相关工作

在生物医学领域,基因本体论等知识库(KBs) [19,疾病本体论[20.]国家药物档案的参考条款[21],和解剖学的基本款[22]都是努力系统地提供结构化知识的突出例子。其中一些KBs,例如OpenKG [23], BenevolentAI [24,了解生活[14为生物医学领域的发展做出了重大贡献,包括最近针对COVID-19的药物重新定位[25],SemaTyP [26]和蛋白质药物靶点KG[15] 被用过。尽管提供了许多努力提供更多结构化数据,但仍然隐藏在生物医学文献中的大量相关知识[27].以前关于KB构建的工作有三个主要限制[9].首先,大多数生物医学KBs是人工构建和策划的,这使得它们跟不上新发现的步伐。其次,可能有用的文本来源,如健康门户、在线社区或其他信息来源,往往被忽略。最后,大多数以前的工作集中在一个分子水平或化学基因组学,如蛋白质-蛋白质相互作用[28],基因 - 药物关系[29或者只是具有药物效应的高度特定主题。

自然语言处理工具从生物医学文献中提取有用信息是必不可少的[30.].我们需要从命名实体识别过程开始,然后是关系提取。生物医学命名实体识别[31]的目的是在文本中确定具体的生物医学概念。NER由两个步骤组成:(1)对从文本中获得的特定子串进行分类,确定它是否是特定类型实体的名称;(2)为一种实体选择标准名称或唯一标识符[32].现在已经有很多NER工具,可用于不同类型的生物医学实体,如基因/蛋白[33),疾病(34,35],种[36],突变[37],化学品[38,39]和生物途径[40].仍然,许多基本概念类型如RNA,表型,中国专利药物(CPMS)和草药没有相应的网状工具。

关系抽取是近年来研究的热点之一。由于生物医学文本的内在复杂性,大多数关系抽取系统工作在基于句子的层次。常见的关系包括蛋白质相互作用[28,药物-药物相互作用[41,基因调控事件[42,突变与疾病之间的关系[43].早期关系采用共现方法[44.],而基于模式的系统[45.]依靠一组手动或自动收集的模式来提取关系和分类实体之间的关系类型。基于规则的方法[46.,47.]使用一组过程或一些启发式算法手动定义或建立一组基于领域专家和自动地从训练数据产生的规则。它增加了多个约束到特定范围的关系:例如,BioNLP'09 [48.]关注9个常见的分子事件。近年来,随着精选语料库的准确性和可用性的提高,深度学习模型在自然语言处理领域得到了广泛的应用。卷积神经网络(CNN)[49.]、递归神经网络(RNN) [50.、长短期记忆网络(LSTM) [41],胶囊网络,CapsNet[51.,图神经网络[52.,53.],和BERT [54.]采用普遍采用的模型,对生物医学挖掘作出了巨大贡献。

对于中医领域,手工组织中医数据库,TCMID [55.], TCM-MESH [56.),而中医网络药理学etcm [57.,58.],为中医的研究带来了方便。然而,据我们所知,目前还没有专门针对中医的文本挖掘工具,中风相关的知识也存在不公开或不完整的知识[6.,7.,8.].因此,在本研究中,我们将丰富文本挖掘在中医知识构建中的应用,并在此基础上,以艺术的起点,构建笔画相关知识图。

方法

在这项工作中,我们设计了一个计算工作流来挖掘中风相关和中医相关文献,以识别生物医学实体及其之间的关系。我们将中风相关摘要分为463225句,分析管道标记了以下实体:药物、化学物质、基因、途径和疾病,以及中药、中成药(CPM)和成分等传统中药疗法。为了增加中风相关疾病的中医药数据集,我们将中医药相关摘要分为提取疾病、CPM和草药的句子。然后,我们使用几种方法来处理实体之间的关系。在验证和清理结果后,我们使用NEO4J构建StrokeKG。

我们的工作流程的步骤解释如下(图。1.).

图。1
图1

构建StrokeKG的工作流。一个非结构化数据搜索,b结构化数据下载,c预处理、d命名实体识别,e关系提取,f知识图构造

数据源

在PubMed上搜索“卒中与治疗或基因或草药或中医”,可得到45,080篇卒中相关摘要和72,410篇中医相关摘要,并将其作为数据集进行信息提取。另外,手工创建数据库和注释语料库,药物-疾病关系数据库:CDR [59.),供(60.,基因-疾病关系文集:EU-ADR [42],以及TCMID ETCM [57.], TCMSP [58.]也是我们知识图数据的主要来源。桌子1.详细说明我们研究的数据来源。

表1我方StrokeKG的数据来源

预处理

我们将PubMed摘要重新格式化为Pubtator [63.格式来匹配NER工具的数据,然后用NLTK分割句子[64.].

命名实体认可

我们提取了九种命名实体类型(疾病、药物、基因、症状、途径、中成药(CPMs)、中草药、化学药品、成分)。我们使用最先进的NER方法,包括DNorm [34提取并归一化疾病词,tmChem [38]为化学命名实体标识符,GNormPlus [33]来处理基因提及和标识符检测,以及通过PWTEES的途径[40].

我们使用预先训练的BiLSTM-CRF [65.]使用植物病害语料库的模型[62.]打造NER分类识别草药。缺少注释的语料库构成使用深度学习方法来构建需要我们研究其他净入学率相当大的挑战。因此,我们已经制定了其他实体类型dictionary-和基于规则的方法。基于规则的方法PKDE4J [46.]用于修改Stanford CoreNLP管道,以基于药物字典提取实体。症状和成分是通过从CPM数据库下载的术语来识别的[55.]和成分数据库[56.,构造一个症状字典,然后将该字典插入到PKDE4J模型中,并应用了基于字典的NER方法。

为了消除偶然出现的实体,我们根据实体出现的次数确定阈值。当实体出现的次数小于3次时,我们将手动判断实体是否与stroke相关。

关系抽取

我们关注表中指定的11种关系类型2.. 这些数据来自现有数据库和现有语料库(见下文)。

表2药物/中药/中草药/化学品与疾病关键词分类规则和语料库

关系提取过程如图所示。2..我们首先使用一种简单的同现法。当两个实体出现在同一个句子中,我们认为它们之间有一种特殊的关系。其次,使用基于规则的方法提取两个实体之间关系的“证据”。最后,我们开发了一个机器学习模型,根据现有的数据库或语料库进一步分类关系类型。

  • 同现提取

    我们使用NLTK [64.]对每个句子进行分割,并根据多个NER模型确定的实体位置匹配每个实体在句子中的位置(见图)。2.).

  • 基于规则的方法

    我们使用PKDE4J [46.来创建包含语法和语法结构的依赖关系树。我们依靠代表关系的句子中的标准特征和结构,提取可以表达通过共现识别的两个实体之间关系的关键字(图。2.).然后我们设计了一套匹配规则,将这些关键词分类为精灵关系类型(例如,正关联;治疗;诱导;等)特定实体对之间(例如,基因-疾病;草药-化学),如现有生物医学数据库(如TCMID [55.],CTD数据库[60.])(如表所示)1.).

  • Bio-Bert提取关系

图2
figure2

关于关系抽取的管道和细节

我们选择了Bio Bert[54.]作为一个预先训练的模型,它与我们的数据共享潜在的潜在特征,因为它是在生物医学语料库上重新训练的。根据BioBERT的参数配置,我们使用金标准数据集[42,60.,61.]随着训练的进行,我们的共同发生结果作为测试集并选择第20时代的结果作为我们关系提取的最终结果。我们使用的关系提取的Corpora可以在表格中看到2.

共现法证明两个实体出现在同一个句子中,表明实体之间存在可能的关系。如果提取关键词,基于规则的方法可以很好地对实体关系进行分类。当关键词无法提取时,我们使用BioBERT分类结果,它可以对所有关系进行分类,但这在很大程度上取决于语料库的丰富性和模型的准确性。

由于实体对可能出现在不同的句子中,分类结果可能会有所不同。为了找到两个实体对之间的所有关系,我们计算了由特定关系相关的对的置信度,在整个句子中,这对实体共同出现。我们只选择那些有信心的关系,而不是阈值,以消除偶然发生的嘈杂关系。然后,我们分析实体的最终关系结果。

中医语料库手工标注

实体注释

验证我们的中草药相关实体挖掘工具的有效性。这项工作主要集中于450篇中医药相关摘要中草药和中成药的注释。我们将该工具挖掘的提及视为实体的预注释。因此,根据TCMID提供的词汇表[55.]及ETCM [57.,我们只需要修改不正确的注释,并向未检测到的实体添加注释,而不是从头开始注释实体。

我们所关心的目标实体的定义如下:

中成药:包括临床处方药,中药配方和CPM。

注释的关系

在关系注释任务中,我们只考虑了实体之间的两个关系。对于每种关系,我们根据两个注释指南分类了关系类型。一旦两个目标实体出现在同一个句子中,我们将标记它们之间的关系。

中国专利medicine-disease这表明该药物将治疗疾病或诱发本病。根据植物疾病语料库,关系分为3类:治疗,病因等。

文本挖掘结果的评价

NER和RE的评价为所提取的结果与现有的数据库或手动注释的语料库比较。

对于中医相关的NER工具,我们比较我们提取的结果是否与现有数据库重叠。其次,对于CPM实体,我们将比较基于字典的工具的结果和我们手工标注的结果。

对于关系提取结果,也要检查我们提取的实体对与现有数据库的重叠,然后计算重叠部分的关系分类正确率(CR)。

$$ text{Correct rate}= $ frac{text{Correct classification relationships}}{text{Overlapped relationships}}$$

知识图形建设

知识图的构建是实体和关系的一种引人注目的可视化表示。它们嵌入到知识图中,以携带有关实体和关系的信息,并广泛用于学习任务中,以加速知识图的完成和推荐。通过从我们的结果和现有数据源(TCMID)映射中风相关实体[55.],CDR [66.),供(60.], TCMSP [58.]及ETCM [57.),我们可以将这些三元组组合成一个单一的数据集,构建一个全面的与中风相关的再用途知识图。

结果

结果统计

结果主要包括我们挖掘的实体和关系。药物、化学品、症状、途径等的统计结果和具体结果见表3.https://github.com/yangxi1016/Stroke

表3命名实体识别的模型和结果

关系提取结果统计见表4.

表4使用共生和PKDE4J的关系结果数量

评估

评价NER

与我们手工标注的CPM结果相比,基于规则的CPM NER的查全率、查准率和f1分如表所示5.

表5基于规则的CPM NER工具的F1分数

低召回的原因主要是因为缺乏缩写(Cy-Tang:Chungsim-yeunja-Tang)和不同发音引起的TCM的不同拼写。(例如,Hwangryun-Hae-Dok-Tang和Huanglian-Jie-du-Tang)。

与现有数据库比较

为了评估文献来源的知识代表数据的有效性,我们将结果与两个中药药理知识库:ETCM和TCMSP与StrokeKG中获得的结果进行了比较。包括与中风相关的CPM,草药和基因。数字3.显示了与ETCM的比较结果[57.]及TCMSP [58.].

图3.
图3

ner结果与etfm的比较[57.]及TCMSP [58.

与现有数据库相比,我们的名称识别结果与现有数据库部分重叠,这表明我们的实体识别结果是有效的。更重要的是,我们发现了许多数据库中不存在的中风相关实体。这为今后的研究提供了一个新的方向。

评估再保险

与我们手工标注的CPM-Disease关系相比,CPM-Disease RE的召回率、准确率和f1得分如表所示6.

表6 F1-得分CPM-病RE工具的

在一些关系对上,模型无法判断是治疗还是原因,而被归类为其他,这是造成错误的主要原因。

如图所示。4.一和表7.,我们的挖掘结果包括190双CPM-草药,4对CPM-成分,和515对草药-成分,与现有的TCMID(仅CPM组件和草药成分表)数据库进行比较,有275双关系那重叠和的关系的分类结果的正确率为91.42%。其次,我们的挖掘结果包括404对CPM-疾病(704 CPM卒中相关疾病)与TCMID比较(只比较中草药是否对疾病的治疗效果)。率是84.37%。基因,疾病和药物 - 疾病之间的关系的正确率是90.47%和88.86%,分别。

图4.
图4.

与现有数据库重复(可比较)的部分挖掘结果。一个CPM - 草药,CPM - 成分和草药成分(比较数据库:TCMID)的关系。bcpm疾病,成分疾病和草药疾病之间的关系(比较数据库:植物疾病)。c药物疾病与化学疾病的关系(比较数据库:CTD:化学疾病)

表7我们RE结果的正确率

确定分类是否可以重叠并制作表8.

表8药病关系文本挖掘结果与现有数据库比较(CID + CTD)

通过详细的分析,我们发现我们的关系提取方法可以准确的提取出同一句中的两个实体,但是在关系的分类上会有错误。主要原因是在关系抽取中无法识别关键字。

同时,构建我们的知识图的另一个目的是在浩瀚的数据海洋中提取可能有用但不包含在现有数据集中的知识。为此,我们将数据集的大小与现有的生物医学公共知识库进行了比较,并提出了新的可能的临床医学研究方向。

中风

StrokeKG (http://114.115.208.144:7474/browser/)包含总共46,983个实体,属于K = 9个实体类型。实体的类型分布。StrokeKG包含总共157,302个三元组,它们属于R = 30个边型,具有659,838个属性。部分结果如图所示。5.a,使用实体作为图形节点,并且实体包含实体ID,实体名称和标准分类(网格)。如图所示。5.b,以两个实体共存的文章的PMID号作为图的边。特别是边缘还包含PKDE4J提取的关键字(RelationKeyword)和基于BERT模型的关系分类结果(RelationType)。

图5.
图5.

知识图谱的截图。一个总体架构,b关于实体的详细信息的示例。c当归与急性脑梗死的关系

为了提高知识图的有效性,我们还使用来自完全正确的评估结果部分的证据和现有数据库中的信息,对9种类型的可靠32,031个节点和16种类型的4800个关系进行了注释。

讨论

NER和RE的详细结果

中风患者疾病/症状

总的来说,我们在下载的文件中开采了4210种疾病(401,644个实体提升)。(结果详细信息在附加文件中显示1.根据我们的研究结果,笔画在相关文献中的表达方式包括同义词(如:,Apoplexy (105), Brain ischemia (605), Cerebral ischemia (3183), Cerebrovascular Accident (227), Hemorrhage, Transient Ischemic Attack), abbreviations (e.g., CVA, TIA (722)), lexical changes, and word order changes. The generation of a stroke may be related to other diseases, such as atrial fibrillation (MESH:D001281,2732) diabetes (MESH:D006973, 2571), heart disease(MESH:D006333, 2590) etc., or it may have some sequelae after a stroke, such as acute gastrointestinal bleeding, hypertension, cerebral heart syndrome, pulmonary infection, and acute Pulmonary edema, etc. There are 728 types of symptoms (350,833 mentions), (Results detail shows in Additional file2.)其中,4041摘要中提到的老龄化(4103),这也与64%的中风发生在55 - 75岁之间的事实相一致。病毒(731)感染可能是突发中风的一个因素。同时抑郁(1067)、焦虑(301)等不良心理状况也是卒中患者需要的常见并发症。

中风相关基因及中风基因与中风相关疾病基因的关系

基因突变与中风的发生率有关。通过疾病 - 基因的提取,我们发现5953种基因(包括180,280种增强)。我们联系了1238个疾病和1574个基因,创造了10,094个关系。结果表明,588个基因的小变化会影响中风的风险,近1000个基因会影响卒中相关疾病。具体地,ACE(血管紧张素转换酶)(803),胶原结合蛋白(437)或MTHFR(326)的变化影响卒中的风险。其次,VEGF(558)可用作治疗中风患者的药物靶标。与此同时,UCHL1,缺氧诱导因子1α的(HIF-1α,239)的脑蛋白的调控可能是神经细胞如何在中风后自我修复的关键。

治疗中风及中风相关疾病的西药

TMCHEM系统从下载的摘要成功地确定了11,129种化学实体(201,234提前)。其中,许多次提到了噻氯丙啉,尼莫替哌啶三苯基氯化氢氯化氢氯化氢氯化氢氯化氢氯化物,并且是治疗中风和相关疾病的各种药物中的成分。从阿司匹林(1475)是主要化学物质的提升的数量可以看出,用于缓解/减轻行程的风险,血管紧张素(435)导致血管收缩和增加的血压,这最终导致中风。其次,氧气(2290),铁(1524)钙(1918),葡萄糖(1193)胆固醇(1177),核苷酸(1144),这些主要化合物对人类中风和相关疾病影响的指标是最关心的医学界。

根据药物银行提供的药物清单,我们已经规范化,分类了2156种实体药物。除了化学品中统计的个体元素外,对中风影响最大的药物是阿司匹林(DB00945,1475),华法林(DB00682,1034),氯吡格雷(DB00758,666)。

治疗中风和中风相关疾病的中医

我们确定了294种对预防和治疗中风及相关疾病有作用的中成药。从我们的挖掘结果来看,瓜蒌桂枝汤(10)、苦迭子注射液(10)、丹红注射液(20)、补阳还五汤(36)是治疗脑卒中的有效药物。我们还提取了420种草本植物(11671篇)。丹参(58)、川雄(50)、党桂(23)、黄连(21)、白附子(19)是治疗中风及相关疾病的各种中成药或方剂。在成分提取方面,除了葡萄糖(1947)、胆固醇(1394)、谷氨酸(767)、多巴胺(478)等成分外,金丝桃苷(265)、儿茶酚(207)等中草药中的独特成分对治疗中风相关疾病非常重要。

通路

在我们的结果中,总共鉴定了105337条通路。在随后的关系提取过程中,我们利用这些结果来分析药物或草药成分中的化学成分在疾病中起什么样的分子对,并确定与中风相关疾病有关的关键基因和途径是什么。

例如,中风后由细胞因子和自由基或其它炎性因子产生的ERK1 / 2的活性可能恶化缺血性损伤,而ERK1 / 2的活性通过外源性生长因子,雌激素,和预处理恩惠神经保护制备。

发现可能存在的可治疗中风的CPM

中风建设可以发现现有的药物/康马林/草药治疗与中风相关的疾病,以降低中风的风险。这种任务可以表达为药物和疾病实体之间的直接链接预测,或间接地表达为特定途径所涉及的任何一对生物实体之间的联系。例如,31348992 DZXXI的推测靶点与缺血性卒中相关基因的交叉分析发现了两个重要靶点(PTGS1, PTGS2)(无花果。6.).

图6.
图6.

表示为任何一对生物实体之间的联系的例子

结论

在这项研究中,我们分析了中风相关文献与自然语言处理,包括命名实体识别和关系抽取。我们发现,在国家的最先进的文本挖掘工具,可以有效地提取隐藏在背后的生物医学领域的非结构化数据的关键信息。

通过知识库和知识图谱,我们对脑卒中相关疾病、症状、引起脑卒中的基因突变以及中西医在预防和治疗脑卒中中的重要作用有了更清晰的认识。我们构造了StrokeKG,成功地表示中风相关实体之间的关系。

在未来的研究中,我们将优化生物医学领域的关系矿业模式,将模型应用于各种疾病的各个方面,并建立了更大,更全面的医学知识地图。

数据和材料的可用性

有关的代码文件可于以下网址下载:https://github.com/yangxi1016/stroToRe/。

缩写

尼珥:

命名实体识别

再保险:

关系抽取

中医药:

中国传统医学

参考文献

  1. 1.

    刘艾,黄海,梁田,莫伟杰,黄葵。静脉注射阿替普酶治疗中国脑卒中患者及边缘性合格性。临床神经科学杂志。2012;19(10):1383-6。

    中科院文章谷歌学术

  2. 2.

    Brainin M, Feigin VL, Norrving B, Martins SCO, Hankey GJ, Hachinski V.全球预防中风和痴呆:世界卫生组织宣言。柳叶刀神经。2020;19(6):487 - 8。

    文章谷歌学术

  3. 3.

    Peisker T,Koznar B,Stetkarova I,Widimsky P.急性卒中治疗:综述。趋势Cardiovasc Med。2017; 27(1):59-66。

    文章谷歌学术

  4. 4.

    佟刚,廖华勇,蒋建华,陈永华,李永昌。中草药和针灸降低贝尔氏麻痹后中风的风险:一项基于人群的回顾性队列研究J Altern补充医学。2019;25(9):946-56。

    文章谷歌学术

  5. 5。

    Katan M,Luft A.全球中风的负担。在:神经内科研讨会:2018年。Thieme Medical Publishers,208-211。

  6. 6。

    国际中风资料库[互联网]。2006年11月1日[更新2015年1月1日;引用2020年12月8日]。可以从:http://www.nmr.mgh.harvard.edu/stroke/index.html

  7. 7。

    OSR急性中风数据库[互联网]。2015 10月4日[更新2021年5月1日;引用2021年5月6日]。可以从:https://www.ices.on.ca/Research/Research-programs/Cardiovascular/Ontario-Stroke-Registry/OSR-Acute-Stroke-Databases

  8. 8。

    SSNAP[网络]。2020年1月1日[更新2021年5月4日;引用2021年5月6日]。可以从:https://www.strokeaudit.org/

  9. 9。

    王强,毛志强,王波,郭磊。知识图谱嵌入方法及应用综述。数据工程。2017;29(12):2724-43。

    文章谷歌学术

  10. 10.

    纪胜,潘胜。知识图谱的表征、获取与应用研究。arXiv预印本arXiv:2002.00388 2020。

  11. 11.

    王旭,何旭,曹勇,刘敏,蔡廷森。Kgat:知识图谱关注网络,供推荐使用。见:第25届ACM SIGKDD国际知识发现与数据挖掘会议论文集:2019。950 - 958。

  12. 12.

    豆DM,吴浩,伊克巴尔E, Dzahini O, Ibrahim ZM, Broadbent M, Stewart R, Dobson RJ。电子病历中未知药物不良反应的知识图谱预测及验证。Sci众议员2017;7(1):1 - 11。

    中科院文章谷歌学术

  13. 13.

    Gyrard A, Gaur M, Shekarpour S, Thirunarayan K, Sheth A.个性化健康知识图谱。2018.

  14. 14.

    王志强,王志强,王志强,等。生物医学知识图谱的构建方法。BMC Bioinform。2015;16(1):157。

    文章谷歌学术

  15. 15。

    Mohamed SK, Nováček V, Nounu A.利用知识图嵌入发现蛋白质药物靶点。生物信息学。2020;36(2):603 - 10。

    中科院PubMed.谷歌学术

  16. 16。

    基于最小监督的生物医学领域知识图谱构建。知识信息系统。2020;62(1):317-36。

    文章谷歌学术

  17. 17。

    中国传统中药肝毒性研究进展[J]。安乙醇。2015;14(1):7-19。

    中科院文章谷歌学术

  18. 18。

    吴胜,吴斌,刘敏,陈振华,王伟,王勇,黄颖,崔磊。中国卒中流行病学研究进展与挑战。柳叶刀神经。2019;18(4):394 - 405。

    文章谷歌学术

  19. 19。

    联盟Go。基因本体组织:前进。核酸RES。2015; 43(D1):D1049-56。

    文章谷歌学术

  20. 20.

    施里姆,阿泽C,纳登德拉S,张Y-WW,马萨提斯M,费利克斯五世,冯G,基伯瓦。疾病本体:疾病语义集成的主干。核酸研究,2012年;40(D1):D940–6。

  21. 21.

    佩特里NM,皮尔斯JM,斯蒂策ML,布莱恩Ĵ,卷JM,科恩A,奥伯特Ĵ,基林T,萨拉丁ME,对在门诊心理治疗方案兴奋剂滥用的结果基于奖金的激励措施科威尔M.效果:一个国家药品滥用治疗的临床试验网络学习。拱门精神病学。2005; 62(10):1148至1156年。

    文章谷歌学术

  22. 22.

    Gregory JK,Lachman N,Camp Cl,Chen LP,Pawlina W.重组核心竞争力的基本科学课程:解剖学教学的一个例子。医学教学。2009; 31(9):855-61。

    文章谷歌学术

  23. 23.

    Yuanzhuo W,Yantao J,Zeya Z. OpenKG-Ingreegning Computing Engine在网络大数据时代。Commun Compuct Fed。2014; 10(11):30-5。

    谷歌学术

  24. 24.

    Fauqueur J, Thillaisundara A, Togia T.利用可解释模式的快速标注,从零开始构建大规模生物医学知识库。arXiv预印arXiv:1907.01417 2019。

  25. 25.

    Stebbing J, Phelan A, Griffin I, Tucker C, Oechsle O, Smith D, Richardson P. COVID-19:联合抗病毒和抗炎治疗。柳叶刀感染疾病。

  26. 26.

    Sang S,Yang Z,Wang L,Liu X,Lin H,Wang J. Sematyp:一种基于知识图的药物发现文献挖掘方法。BMC生物素。2018; 19(1):193。

    文章谷歌学术

  27. 27。

    科恩,赫什WR。生物医学文本挖掘的研究现状。短暂的Bioinform。2005;6(1):57 - 71。

    中科院文章谷歌学术

  28. 28。

    鲁KJ,金DI,伯克B,五月DG。BioID:蛋白质 - 蛋白质相互作用的屏幕。CURR Protoc普罗特科学。2018; 91(1):19.23.11-5。

  29. 29。

    li K, Kim B, Choi Y, Kim S, Shin W, Lee S, Park S, Kim S, Tan AC, Kang J.文献中突变-基因-药物关系的深度学习。BMC Bioinform。2018;19(1):21。

    文章谷歌学术

  30. 30.

    张Y,林H,杨Z,王家,张某,孙Y,杨L.一种基于神经网络的生物医学关系提取的混合模型。j生物注释通知。2018; 81:83-92。

    文章谷歌学术

  31. 31.

    Yadav v,伯特拉德S.深入学习模型命名实体识别近期进步的调查。Arxiv预印迹阿克西:1910.11470 2019。

  32. 32.

    生物医学文献中的术语识别。生物医学通报。37(6):512-26。

  33. 33.

    Wei C-H, kah - y, Lu Z. GNormPlus:一种标记基因、基因家族和蛋白质结构域的综合方法。生物医学学报2015;2015。

  34. 34.

    Leaman R,IslamajDoğanR,Lu Z.Dnorm:疾病名称标准化与成对学习排名。生物信息学。2013; 29(22):2909-17。

    中科院文章谷歌学术

  35. 35.

    Dang TH, Le H-Q, Nguyen TM, Vu ST. D3NER:利用CRF-biLSTM改进的各种语言信息的微调嵌入的生物医学命名实体识别。生物信息学。2018;34(20):3539 - 46。

    中科院文章谷歌学术

  36. 36.

    Gerner M, Nenadic G, Bergman CM。生物医学文献的物种名称识别系统。BMC Bioinform。2010;11(1):85。

    文章谷歌学术

  37. 37.

    Perera D, Poulos RC, Shah A, Beck D, Pimanda JE, Wong JW。差异DNA修复是癌症基因组中活跃启动子突变热点的基础。自然。2016;532(7598):259 - 63。

    中科院文章谷歌学术

  38. 38.

    基于tmChem的化学命名实体识别方法。J Cheminform。2015;7 (S1): S3。

    文章谷歌学术

  39. 39。

    Rocktäschel T, Weidlich M, Leser U. ChemSpot:化学命名实体识别的混合系统。生物信息学。2012;28(12):1633 - 40。

    文章谷歌学术

  40. 40。

    Wu C,Schwartz J-M,Brabant G,Peng S-L,Nenadic G.通过基因和途径事件的大规模挖掘构建甲状腺癌的分子相互作用网络。BMC SYST BIOL。2015; 9(6):S5。

    文章谷歌学术

  41. 41。

    王伟,杨旭,杨超,郭旭,张旭,吴超。基于依赖的长短时记忆网络的药物-药物相互作用提取。BMC Bioinform。2017;18(16):578。

    文章谷歌学术

  42. 42。

    Van Mulligen Em,Fourrier-Reglat A,Gurwitz D,Molokhia M,Nieto A,Trifiro G,Kors Ja,Furlong Li。EU-ADR语料库:注释药物,疾病,目标及其关系。j生物注释通知。2012; 45(5):879-84。

    文章谷歌学术

  43. 43.

    Trifiròg,Patadia V,Schuemie Mj,Coloma Pm,Gini R,Herings R,Hippisley-Cox J,Mazzaglia G,Giaquinto C,Scotti L. Eu-ADR Healthcare数据库网络与自发报告系统数据库:信号检测的初步比较.螺柱健康技档通知。2011; 166:25-30。

  44. 44.

    Junge A,Jensen LJ。Cocoscore:使用遥控监督的文本挖掘应用程序的上下文感知共同发生评分。生物信息学。2020; 36(1):264-71。

    中科院文章谷歌学术

  45. 45.

    Sarhan I,El-Sonbaty Y,El-Nasr Ma。基于半监督的阿拉伯关系提取算法。:2016年IEEE 28举办人工智能工具国际会议:2016年。IEEE:177-183。

  46. 46.

    宋敏,金WC,李丁,许舸,姜琪。PKDE4J:用于公共知识发现的实体和关系提取。J Biomed Inform. 2015; 57:320-32。

    文章谷歌学术

  47. 47.

    Ravikumar K, rastega - mojarad M, Liu H. BELMiner:采用基于规则的关系抽取系统从生物医学文献证据句中提取生物表达语言语句。数据库。2017;2017年。

  48. 48.

    Kim J-D,Ohta T,Pysalo S,Kano Y。2009.bionlp'09事件提取共享任务概述。发表于:生物医学自然语言处理会议录(BioNLP)NAACL 2009年研讨会。西特塞。

  49. 49.

    刘聪,孙伟,赵伟,车伟。用于关系提取的卷积神经网络。国际先进数据挖掘和应用会议:2013年。斯普林格:231-242。

  50. 50.

    张丹,王丹:基于递归神经网络的关系分类。arXiv预印本arXiv:1508.01006 2015。

  51. 51.

    Xi E,Bing S,Jin Y:复杂数据上的胶囊网络性能。Arxiv预印迹arxiv:2017年1712.03480。

  52. 52。

    孙敏,赵胜,周军,王峰。基于图卷积网络的计算药物研发。简短的通知》2019。

  53. 53。

    基于图卷积网络的多药副作用建模。生物信息学。2018;34 (13):i457 - 66。

    中科院文章谷歌学术

  54. 54。

    基于生物bert的电子病历命名实体识别。2019第十届医学与教育信息技术国际会议(ITME): 2019。IEEE: 49-52。

  55. 55.

    黄L,谢D,余y,刘H,石y,Shi T,Wen C. TCMID 2.0:TCM的综合资源。核酸RES。2017; 46(D1):D1117-20。

  56. 56.

    张荣志,于世杰。白华,宁凯:TCM- mesh:中药制剂网络药理学分析数据库及分析系统。Sci众议员2017;7(1):2821。

    文章谷歌学术

  57. 57.

    徐海英,张永强,刘志明,陈涛,吕春英,唐树华,张学兵,张伟,李志勇,周荣荣。中医百科全书。核酸Res. 2019;47(D1): D976-82。

    中科院文章谷歌学术

  58. 58.

    茹军,李鹏,王军,周伟,李波,黄超,李鹏,郭志,陶伟,杨宇。中药药物发现系统药理学数据库。J Cheminform。2014;6(1):13。

    文章谷歌学术

  59. 59.

    Taboureau O,尼尔森SK,Audouze K,Weinhold N,Edsgärdd,罗克FS,Kouskoumvekaki I,波拉A,Curpan R,詹森TS。ChemProt:疾病化学生物学数据库。核酸RES。2010; 39(suppl_1):D367-72。

  60. 60.

    比较毒理学基因组学数据库(CTD):比较毒理学研究资源。中国生物医学杂志。2006;305(9):689-92。

    中科院文章谷歌学术

  61. 61.

    DDI语料库:一个药理学物质与药物相互作用的注释语料库。生物医学通报。2013;46(5):914-20。

    文章谷歌学术

  62. 62.

    生物医学领域的植物病害关系文集。《公共科学图书馆•综合》2019;14(8)。

  63. 63.

    魏春华,高宏宇,陆铮。基于网络的文本挖掘工具。核酸学报2013;41(W1): W518-22。

    文章谷歌学术

  64. 64。

    NLTK:自然语言工具包。arXiv预印:cs/0205028 2002。

  65. 65。

    罗磊,杨志强,杨鹏,张勇,王磊。基于注意的BiLSTM-CRF方法在文档级化学命名实体识别中的应用。生物信息学。2018;34(8):1381 - 8。

    中科院文章谷歌学术

  66. 66。

    李俊,孙勇,Johnson RJ, Sciaky D, Wei C-H, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z. BioCreative V CDR任务语料库:一种化学疾病关系抽取资源。数据库。2016;2016年。

下载参考

致谢

不适用。

关于这个补充

本文已作为BMC生物信息学的一部分发布22卷补充10 2021:来自第19届亚太地区生欧宝娱乐合法吗物信息学会(APBC 2021)的选定文章:生物信息学。补充的完整内容可用//www.christinemj.com/articles/supplements/volume-22-supplement-10

资金

计算资源支持国家国防科技高级人才计划(2017-JCJQ-ZQ-013)和NSF 61902405。出版费用由中国科学技术部(2018YFB1003203),高性能计算国家重点实验室的开放基金国家重点研发项目(201901-11号),国家科学基金会(U1811462)。资助者CW和KL参与了方法的制定和发展,并为这项研究提供了财政支持。

作者信息

从属关系

作者

贡献

GN提出了这个项目的总体构想。XY和WW与CW和KL一起制定代码并起草手稿,共同起草讨论并修改整个手稿,所有作者都已经阅读并批准了手稿。

相应的作者

对应到Goran Nenadic.

道德声明

道德认可和参与同意

不适用。

同意出版

不适用。

竞争利益

提交人声明他们没有竞争利益。

附加信息

出版商的注意事项

欧宝体育黑玩家Springer Nature在公布的地图和机构附属机构的管辖权主张方面保持中立。

补充信息

额外的文件1

.与中风有关的疾病列表。

额外的文件2

.中风相关症状列表

权利和权限

开放获取本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

再版和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

杨,X.,吴,C.,Nenadic,G.et al。从文献中挖掘笔画知识图谱。欧宝娱乐合法吗22,387(2021)。https://doi.org/10.1186/s12859-021-04292-4

下载引用

关键字

  • 中风
  • 知识图形
  • 生物医学文本矿业
  • 中国传统医学