跳过主要内容

基于BERT的生物医学文本依赖分析

抽象的

背景:

句法分析,或对其进行解析,是在自然语言处理的关键任务,并为许多文本挖掘方法所需的组件。近年来,通用相关性(UD)已作为依存分析的领先形式主义。虽然最近的一些任务在UD中心取得了很大进展的领域多语种解析的状态,出现了只从专业领域,如生物医学分析文本的小书房。

方法:

我们使用最近介绍的Craft-SA共享任务数据集探索最先进的神经依赖解析方法对生物医学文本的应用。Craft-SA任务广泛遵循UD表示和最近的UD任务约定,允许我们微调UD兼容的Turku神经解析器并将神经解析器UDify到任务。我们进一步评估了使用广泛选择的伯特模型的转移学习的影响,包括专门针对生物医学文本处理的多种培训的型号。

结果:

我们发现,最近推出的神经解析技术能够产生生物医学文本的高度精确的分析,大幅度提高上表现最好的报道在原CRAFT-SA共同任务。我们还使用在文本域深陷转会学习模式,预先训练的关键是最大化的分析方法的性能发现,初始化。

背景

自动分析原始文本,以确定输入句子的句法结构,并以某种已建立的形式生成这些结构的表示的任务被称为句法分析或者解析.解析是自然语言处理(NLP)的核心任务,也是许多信息抽取和文本挖掘系统的必要组成部分,这些系统利用句法结构来确定哪些关系涉及特定的命名实体,如蛋白质-蛋白质相互作用,在文本中陈述。解析研究长期以来被选项(或短语结构)形式主义部分是由于资源的影响,如Penn Treebank [1以及斯坦福大学[2]和BLLIP [3.]解析器。然而,许多系统利用句法分析来完成生物医学中的信息提取任务[456],以及在其他领域[78]偏爱附属国语法表示法,更明确地捕捉单词之间的关系[910].近年来,出现了对依赖表示了相当的转变也内分析研究,通过通用相关性(UD)的成功部分原因,广阔的合作项目,引进多国语言[跨语言一致的依赖注解1112].UD的努力,迄今已导致引入超过150个树库的90种语言(https://universaldependencies.org/)及其资源担任了计算自然语言学习(CoNLL)在2017年和2018年[多语种依存分析共享任务的流行大会的基础1314]. 虽然UD的努力和这些任务极大地促进了可用资源和高度多语言依赖性解析的最新技术,但对于生物医学等专业领域,关注依赖性解析的努力相对较少。2019年,一项关于生物医学依赖项解析的共享任务被组织为CRAFT共享任务中的CRAFT-SA(结构注释)子任务[15],一组社区挑战,在科罗拉多州的数据上建立丰富的注释全文(工艺)语料库[1617].我们组(TurkuNLP)参与了这个任务,在任务中取得了最高的成绩[18].本文在共享任务的数据和其他资源的基础上,应用反映神经依存句法分析最新发展的模型和方法。

随着人们越来越关注语法的依赖性表示,最近在语法分析方面出现了显著的方法学转变,反映了机器学习的一般趋势。首先,方法已经从统计方法转移[21920.和基于明确定义的特征的机器学习方法[21222324]对使用从数据[了解到密集的特点深层神经方法252627].在一个相关的趋势中,迁移学习最近引起了大量的兴趣,在本文中,迁移学习指的是使用在大型无注释文本语料库上预先训练的模型,然后针对手头的具体任务进行微调。最初,重点是生成单词意义的上下文无关表示的浅层方法,如word2vec [28]和GloVe [29],在过去的几年里,越来越多的人类化的含义模型,如ulmfit [30.,埃尔莫31],伯特[32]. 其中,伯特模型尤其有影响力,尤其是在几个自然语言处理任务中取得了最新进展[33]并为最近的许多深度迁移学习研究奠定了基础[3435]. CoNLL 2017共享任务中表现最好的系统是一个深度学习模型,使用从数十亿个单词的原始文本中归纳出来的上下文无关的单词表示[36]; 2018年,许多CoNLL参与者以这种方法为基础,特别是通过整合来自深层语境化词向量的信息,在许多指标的最佳执行系统中[37].在原始工艺品共享任务中,我们参加了Turku神经解析器管道[38],一种基于获胜Conll'17解析器的寄出的完整解析器管道[36和18年的顶级排名系统。在本文中,我们以两种主要方式扩展了我们之前的工作:(1)我们用最近的深度神经解析器UDify [39],它基于BERT模型,(2)我们探讨了广泛的替代BERT模型,用于初始化Udify,替换解析器默认使用的多语言模型。我们证明,这些修改的两者都大大提高了原始共享任务所达到的最佳性能,共同实现了前一种最先进的标准标记附件评分(LAS)度量的误差率降低了15%。

在下文中,我们首先介绍CRAFT-SA任务数据和本研究中考虑的BERT模型。然后,我们介绍了基线方法和来自原始共享任务的最新模型,并介绍了本文中提出的用于生物医学依赖项解析的解析管道的更新版本。然后,我们介绍和讨论结果,并对未来的工作进行讨论。

数据

在这项工作中,我们使用一个单一的手工注释资源:CRAFT语料库的语法注释。此外,我们还使用了在未经注释的文本上预先训练的深度语言模型。我们将在本节中介绍这些资源。

表1 CRAFT语料库结构注释统计
表2 BERT模型统计:模型参数、词条中的词汇量以及训练前数据中的英语单词数量
表3\ (f \)对于先前提出的解析器变种(TurkuNLP-ST)和新近提出的方法导致各种BERT模式初始化
表4与先前发表的结果比较使用CRAFT-SA测试数据与预测分割

CRAFT语料库

工艺语料库包括已手动注释的多层信息97全文文章,其中提到了标准化的概念,如实体名称,共指,和句子的语法[1617].在本研究中,我们只考虑语料库的句法注释。

出于共同任务的目的,工艺语料库的97份文件分为可见的子集,其中67篇文章,该文章可供与参与者提供完全注释,并盲目的子集,其中30篇文章被扣除,参与者只有提供了物品的原始未经发布的文本。由于数据没有预定义的数据划分为培训和开发集,我们将提供的可见数据集随机分成57个培训文件和10个开发文件,仅用于在培训期间早期停止。此拆分的统计数据如表所示1

数据的依赖注释通过从Penn Treebank选区表示的转换自动创建[1在CRAFT语料库中使用。这种转换是基于Choi和Palmer的实施[40],然后由共享任务组织者进行进一步的自定义后处理。结果数据集符合CoNLL-U数据格式,但语法注释不完全符合通用依赖准则[18].相反,它更类似于Stanford Dependencies (SD)表示,它是Universal Dependencies方案的前身[4142].最重要的是,虽然UD方案一致地分配实词之间的关系,而功能词是依赖的,但这一原则在SD中执行的程度较低。介词短语分析的一个典型差异如图所示。1.在SD和UD之间还有其他一些一致的差异,比如在SD中并列连词与第一个连词相连,在UD中并列连词与最近的右手连词相连。

图。1
图1

斯坦福相关性(顶)和通用依赖性(底部)的图示分析了的例句。工艺依赖注解如下前者表示。(实施例从PMCID:15207008;图改编自[18])

从本文所考虑的解析器管道的角度来看,这些差异并不代表复杂性,这些解析器管道完全基于机器学习,不考虑表示的细节。然而,它们会阻止,或者至少会使treebank池和其他结合多个资源来提高解析性能的技术变得更加困难,这是我们之前在最初的共享任务研究中详细讨论过的一个限制[18].

伯特模型

深度语言模型,特别是基于Transformer神经网络架构的最新模型[43]对自然语言处理产生了重大影响,导致了在大量已建立的参考任务上的新艺术表现。可以说,迄今为止影响最广泛的模型是Devlin等人的BERT模型[32].这些语言模型在大量原始的、未注释的文本上进行预先训练,然后使用注释任务特定的数据进行微调,以为特定的下游任务(如解析)创建模型。由于预训练这样的模型经常涉及到通过数百万个小批量训练步骤,以非平凡的计算成本,将数亿个参数拟合到来自数十亿字文本的示例中,因此预训练模型通常是公开分发的,从大量快速发展的已发布模型中,为手头的任务选择正确的预训练模型的能力是成功的一个重要因素。

预训练语言模型之间的一个主要区别是预训练数据所来自的文本域,这会影响模型已知的词汇。类似于上一代上下文无关的单词表示如何从域内数据的初始化中获益[4445],深层上下文模型(如BERT)通常应使用反映模型将进行微调以最大化性能的领域的数据进行预训练[464748].除了预训练数据外,模型还可以在各种训练和模型尺寸参数中不同。BERT模型的两个常见尺寸是基地,有12个变压器层和大约。1.1亿个参数大的,约有24层。3.4亿个参数,其中精确的参数计数根据词汇量大小而变化。虽然在预训练、微调和预测方面需要更多的计算资源,但大型模型通常可以提供更好的性能,这里我们主要关注可用的BERT模型的大型变体。

为了评估预先训练模型的选择对解析性能的影响,我们在这里用以下每个BERT模型初始化解析器来评估性能:

谷歌伯特大Devlin等人提出的一个BERT大模型[32]训练有素的英文维基百科的2.5B文字和BooksCorpus [中0.8B话49]文本,该模型代表了许多普通英语自然语言处理任务出版时的现状。

谷歌mBERT这是一个基于100多种语言维基百科的BERT Base模型。在引入UDify解析器的研究中,该模型被用作微调的基础,该解析器极大地提高了多语言UD解析的技术水平[39].

SciBERT碱基scivocab无碱基Beltagy等人预先训练的BERT基模型[46的科学文本语义的学者资源,并在其训练前数据中特别包括生物医学领域科学出版物的首批BERT模型之一。

BioBERT v1.1大。自定义的词汇Lee等人预先训练的BERT大模型[48]结合英语维基百科、BooksCorpus、PubMed和PubMed中心文本。对该模型进行微调可以改进之前发表的几个生物医学NLP任务的结果。

蓝莓基地p + m(以前命名为NBCI-BERT),由Peng等人结合PubMed摘要(占训练前数据的90%)和MIMIC-III临床记录(占训练前数据的10%)训练的BERT基模型。[47],并展示了在相关领域的一系列NLP任务的先进水平。

因此,评估的模型包括两个预先训练的“通用”语言(主要是维基百科)和三个包括科学领域文本,BioBERT和BlueBERT专门针对生物医学领域。模型还代表了基础和大型BERT变体。表格2总结了这些模型的关键统计数据。我们注意到,除了在这些模型中使用最大的语料库进行预训练外,BioBERT拥有最大的词汇量,因此,作为一个BERT Large模型,它的参数数量也是最大的。

方法

接下来,我们将介绍我们的解析器管道、参考方法以及在原始CRAFT-SA任务和本研究中应用的评估标准。

图尔库解析器

在所有实验以及我们最初的共享任务提交中使用的主要解析器是Turku神经解析器管道[38,一个完整的解析器管道,能够句子和单词分割,词性和形态标注,句法分析,和词源化。因此,管道从原始的纯文本输入生成完全解析的、标记的和语法化的输出。在CoNLL-2018 Shared Task中,Turku Parser在标记依恋评分(LAS)和形态感知标记依恋评分(MLAS)上排名第二,在双词依赖评分(BLEX)度量上排名第一[14,首先通过原始CRAFT-SA任务中的所有主要指标[1518],首先根据最近的IWPT 2020共享任务中的所有主要指标[5051],显示其极具竞争力的性能。在本研究中,我们将一个新的解析组件集成到解析器管道中,取代了Dozat等人的解析器[36]与最近的UDify解析器[39,使我们能够在BERT模型上对该组件进行微调。

在我们的管道修改版本中,文本分割是使用UDPipe实现的,UDPipe联合预测token和句子边界,使用单层双向GRU神经网络[52].词性标注、形态特征分配和依赖关系解析使用UDify解析器联合执行[39].该解析器主要基于使用BERT语言模型编码器对输入文本进行编码,然后是几个特定于任务的预测层,它们基于BERT表示执行标签和依赖解析。该模型的主要优点在于BERT编码器,因为特定于任务的层相对简单。最后,我们使用了Kanerva等人的通用解理子[53,一种序列到序列的模型,其中引理由给定的输入词形式及其形态特征一次生成一个字符。

图尔库解析器管道将这些单个组件集成为一个系统,其中每个单独的组件retrainable绝不限于UD计划,允许在工艺管道很容易训练语料库,即使它离开UD表示在不同的细节。

参考系

我们将我们提出的方法的性能与原始共享任务中报告的CRAFT-SA任务数据上的性能的所有系统进行比较[15],即:

基线是由共享任务组织者构建的基线系统。系统应用标准在Python自然语言工具包(NLTK)库中实现的分段方法[54]用于句子分割和标记化,以及neural SyntaxNet模型[55用于POS标签和依存分析。基线没有实现词形还原。

隐星基于Spacy依赖解析器的系统[56]由原始CRAFT-SA共享任务中确定为T013的小组应用[15].虽然我们不知道已经发布的关于这个系统的详细描述,但是我们提供了为这个系统提交给任务的两次运行中的较好的参考结果。

TurkuNLP-ST我们小组在原始共享任务中应用的Turku神经解析器管道版本,其中我们被确定为T014[1518].至于SpaCy系统,我们在此重复以供参考的结果,以便我们向最初的共享任务提交最佳表现。我们还包括了使用黄金分割作为我们新提出的方法的比较点的系统的新结果。

评估标准

为了保持与原有CRAFT-SA任务的结果直接可比性,我们采用相同的标准来评估的各种方法的性能。使用2018年版的CoNLL共同任务评估脚本(表现在CRAFT-SA任务进行评估conll18_ud_eval.py),并主要根据与CoNLL'18共享任务相同的三个指标,即标记依恋分数(LAS)、形态感知标记依恋分数(MLAS)和双词汇依赖分数(BLEX)对绩效进行比较。简言之,这些指标定义如下:

标记依恋评分(LAS)为正确预测语法头和依赖关系的标记的比例。LAS是一个被广泛应用的标准度量,用于评估依赖解析器的性能,我们在开发期间使用它作为评估方法的主要度量。

形态感知标记attachment score (MLAS)是内容词LAS的一种变体,其中除了头和依赖关系之外,还必须正确预测通用的POS标签,所选的形态特征和特定的功能依赖。

双性依赖分数(BLEX)也是LAS的一种变体,侧重于实词,除了头部和依赖关系外,还需要正确预测相关词的引理。

除了这些主要指标外,我们还报告了评估通用词性标记(UPO)、通用单词特征(UFeats)、单词基本形式(引理)以及未标记附件分数(UAS)正确预测的指标性能,该分数仅评估无标签的依赖结构,内容词标记为附件分数(CLAS),它忽略了附件相对容易解析的虚词。我们参考了介绍这些指标及其在共享任务中的使用的研究,以了解这些既定指标定义的完整细节[131415].

CoNLL和CRAFT共享任务都以原始文本作为起点,而不是被正确分割成句子和标记的文本。因此,在系统预测的分析中,句子和符号的边界可能与黄金数据中的不同。考虑到这些差异,所有指标上面所讨论的,一个正确的预测只测量预测匹配黄金令牌,令牌和性能测量的精度和召回,正确预测预测的数量的比例和黄金令牌(分别)。然后用\ (f \)分数,平衡和声的精度和回忆的平均值。句子切分和标记化的质量是使用句子和标记度量来评估的,它同样度量精度、召回率和\ (f \)预测句子和标记的边界得分。

结果

我们下一个实验结果评估,首先比较上一次迭代的系统的性能与新提出的版本使用各种伯特模型初始化,然后对比的性能表现最好的变异与先前的结果CRAFT-SA任务。

表格3.总结了我们在评估脚本中实现的所有相关指标的管道变化的结果。要专注于模型的影响,我们在这里应用了金句分割和标记而不是预测的细分。我们发现,用Biobert Model初始化的Udify替换核心解析组件可以通过0.01%点的阶段裕度来实现所有单位,只有一个公制的所有公制的最佳结果。

我们注意到,BERT Large在几乎所有指标上都优于基本模型mBERT、BlueBERT和SciBERT(在引理上也略微落后于SciBERT),这表明大型模型的好处可以超过域内训练的好处。使用BioBERT初始化的UDify,以领域训练数据和大型模型为特征,显示出非常强大的性能,在关键LAS度量方面,与我们解析器的上一次迭代相比,显著提高了2%,比已经非常强大的90.28%的结果提高了2%,反映出LAS误差相对减少了20%以上。基于这些结果,我们将重点放在使用BioBERT模型初始化UDify的变体上,与之前使用预测分割的结果进行比较。

也许有些令人惊讶的是,我们发现使用BlueBERT初始化的UDify并不比“通用英语”基础mBERT模型以及BERT-Large模型和我们之前的神经解析器版本表现更好。这可能至少部分是由于BlueBERT在尺寸上是一个基础模型(尽管这也适用于mBERT),以及它是在相对较小的语料库上训练的事实(见表)2). 我们的研究结果表明,选择预先培训的模型对于实现最先进的性能非常重要,而领域内的预先培训并不能保证竞争结果。

表格4使用UDify和BioBERT初始化(Ours)在CRAFT-SA测试数据和原始文本输入上对比新提出的解析器变体的性能,与原始共享任务评估设置相匹配。我们再次发现,LAS性能比之前的技术水平有了显著的提高,有1.5%的点差异(误差减少约15%),证实了该模型在核心解析性能方面优于系统的前一次迭代。MLAS结果也反映了这一点,其中还包括预测词性标记和形态特征的性能信息,以及BLEX度量,这需要正确的引理。

讨论和结论

在本文中,我们提出并评估了一系列的方法,这些方法结合了深度迁移学习的最新进展,使用上下文化模型和神经解析来进行生物医学文本的依赖分析。我们发现,通过结合最近建立在BERT模型上的UDify神经解析器和使用领域内的Large BioBERT模型进行初始化,我们的神经解析器在CRAFT-SA任务数据上的性能可以大幅提高,实现了91.2%的LAS,从而在原始共享任务中获得的最佳结果的基础上减少了约15%的LAS误差。比较各种pre-trained伯特模型也发现大量伯特模型以及适当的训练数据在域允许竞争的关键性能的任务,并演示了使用解析器和解析任务作为评估的标准和选择不同的伯特模型。

深基于变压器的型号如BERT介绍了最近比较,并且其大部分为一般和具体任务,如依存分析生物医学文本自然语言处理的潜力仍然未知。建立我们工作的努力的自然延伸将是探讨使用替代变压器和其他深度学习模型以及结合最先进的模型的方式,并使它们适应更好地处理文本生物医学和其他专业领域。除高质量的预训练模型外,我们的深度转移学习方法的成功还取决于用于微调的数据。我们在这里专注于工艺语料库语法注释进行微调数据,但相信通过将此语料库与其他句法注释的生物医学和一般域资源相结合,仍然有可能进一步提高解析性能,这是我们之前提出的建议工作 [18]. 我们希望在今后的工作中探索这些以及相关的途径。

我们发布了新的改进系统和全系车型在这项研究中介绍下从开放许可https://turkunlp.org/Turku-neural-parser-pipeline/models#craft

数据和材料的可用性

本研究中使用的CRAFT语料库数据和预训练模型可在开放许可下获得,如上述相关部分所示。本研究中新引入的模型可在开放许可下从https://turkunlp.org/Turku-neural-parser-pipeline/models#craft

参考文献

  1. 1.

    泰勒A,马库斯M,圣托里尼B.宾夕法尼亚树堤:概述。:树图资料库。纽约:施普林格;2003.5-22页。

  2. 2.

    Klein D,Manning CD。准确unlexicalized解析。在:第41届的协会计算语言学,2003年P的年会会议纪要。423-430。

  3. 3.

    粗糙到精细n-最佳解析和最大语义区别重排序。[j] .中文信息学报,2005,25(1):1 - 5。p . 173 - 180。

  4. 4.

    BjörneJ,Ginterf,Pyysalo S,Tsujii J,Salakoski T. PubMed Scale的复杂事件提取。生物信息学。2010; 26(12):382-90。

    文章谷歌学术搜索

  5. 5.

    基于联合模型的生物医学事件提取。见:2011年自然语言处理经验方法会议论文集,2011;1 - 12页。

  6. 6.

    Mehryary F, Björne J, Pyysalo S, Salakoski T, Ginter F. Deep learning with minimal training data: TurkuNLP entry in the BioNLP Shared Task 2016。见:第四届BioNLP共享任务研讨会论文集,2016;p . 73 - 81。

  7. 7.

    一种用于关系抽取的最短路径依赖核。见:人类语言技术会议论文集,自然语言处理经验方法会议论文集,2005;p . 724 - 731。

  8. 8.

    基于依赖关系的开放信息抽取。[j] .中文信息学报,2012,31(2):1 - 5。10 - 18页。

  9. 9.

    Kübler S,McDonald R,Nivre J。依赖项解析。关于人类语言技术的综合讲座。2009;1(1):1–127.

  10. 10。

    德马尔尼夫M-C,尼维尔J。依赖语法。语言学家。2019;5:197–218.

    文章谷歌学术搜索

  11. 11.

    Nivre J, de Marneffe M-C, Ginter F, Goldberg Y, Hajič J, Manning CD, McDonald R, Petrov S, Pyysalo S, Silveira N, Tsarfaty R, Zeman d通用依赖v1:多语言树库集合。见:第十届国际语言资源与评价会议论文集(LREC’16),2016;p . 1659 - 1666。

  12. 12.

    NivreĴ,去Marneffe M-C,金特尔楼HajičĴ,曼宁CD,Pyysalo S,舒斯特尔S,泰尔斯楼泽曼D.通用依赖V2:一个恒丰多种语言的树库集合。在:第12届语言资源与评价会议论文集。欧洲语言资源协会,马赛,法国2020年;p。4034-4043。

  13. 13.

    Zeman D, Popel M, Straka M, Hajič J, Nivre J, Ginter F, rotolahti J, Pyysalo S, Petrov S, Potthast M,et al。CoNLL 2017共享任务:从原始文本到通用依赖项的多语言解析。在:CoNLL 2017共享任务进展:从原始文本到通用依赖项的多语言解析,2017;p -。

  14. 14.

    泽曼d,HajičĴ,Popel男,Potthast男,Straka男,金特楼NivreĴ,彼得罗夫S. CoNLL 2018共享任务:从原始文本到普遍依赖多种语言解析。见:CoNLL 2018共享任务会报:从原始文本普遍的依赖,2018多语言解析;p。1-21。

  15. 15.

    鲍姆加特纳JR WA,八达男,Pyysalo S,Ciosici MR,海陆N,皮尔克-Lombardo的H,里根男,亨特L.工艺共享任务2019概述一体型结构,语义和共指。在:在第五研讨会BioNLP打开共享任务,2019论文集;p。174-184。

  16. 16.

    Bada M、Eckert M、Evans D、Garcia K、Shipley K、Sitnikov D、Baumgartner WA、Cohen KB、Verspoor K、Blake JA等。工艺语料库中的概念注释。生物信息学。2012;13(1):161.欧宝娱乐合法吗

    文章谷歌学术搜索

  17. 17.

    Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M,等。全文期刊文章的语料库是揭示生物医学自然语言处理工具性能差异的健壮评估工具。欧宝娱乐合法吗BMC生物信息学。2012;13(1):207。

    文章谷歌学术搜索

  18. 18.

    生物医学文本的神经依赖分析:CRAFT结构注释任务中的TurkuNLP条目。见:2019年第五届生物生物工程开放共享任务研讨会论文集;p . 206 - 215。

  19. 19.

    查尼亚克E。最大熵解析器。年:计算语言学协会北美分会第一次会议;2000

  20. 20。

    词汇化统计解析模型的分布分析。见:2004年自然语言处理经验方法学术会议论文集,2004;p . 182 - 189。

  21. 21。

    依赖解析器的在线大利润训练。[j] .中文信息学报,2005,25(1):1 - 5。p . 91 - 98。

  22. 22。

    尼夫雷J、霍尔J、尼尔森J、埃尔伊奥吉特G、马里诺夫S。使用支持向量机进行标记的伪投影依赖解析。摘自:第十届计算自然语言学习会议论文集(CoNLL-X),2006年;P221–225.

  23. 23。

    基于动态规划的增量解析算法。计算语言学协会第48届年会论文集,2010;p . 1077 - 1086。

  24. 24.

    基于迁移的非局部依赖分析。第49届计算语言学协会年会论文集:人类语言技术,2011;p . 188 - 193。

  25. 25.

    一种基于神经网络的快速精确依赖解析器。[j] .中文信息学报,2014,31(1):1 - 5。p . 740 - 750。

  26. 26.

    代尔C、巴列斯特罗斯M、林W、马修斯A、史密斯纳。基于转换的依赖项解析,使用堆栈长短期内存。摘自:计算语言学协会第53届年会和第7届自然语言处理国际联合会议论文集。计算语言学协会,北京,中国2015;P334–343.

  27. 27.

    Dozat T,曼宁CD。深biaffine注意神经依存分析。在:学习代表处的第五届国际会议论文集(ICLR'17);2017年。

  28. 28.

    陈克勤,陈克勤。基于向量空间的单词表示的有效估计。第一届国际学习表示会议,ICLR 2013;2013.

  29. 29.

    潘宁顿Ĵ,Socher R,CD曼宁。手套:一个字代表的全球载体。在:2014年会议在自然语言处理实证方法(EMNLP),2014年论文集; 1532年至1543年。

  30. 30

    面向文本分类的通用语言模型优化。arXiv预印本arXiv: 1801.061462018

  31. 31

    彼得斯我,诺依曼M,艾耶M,加德纳M,克拉克C,李K,泽特莫耶L。深层语境化的词语表征。摘自:计算语言学协会北美分会2018年会议记录:人类语言技术,第1卷(长篇论文),2018年;P2227–2237.

  32. 32。

    张茂文,李志强,张茂文。深度双向变形对语言理解的预训练。计算语言学协会北美分会2019年会议论文集:人类语言技术,2019;p . 4171 - 4186。

  33. 33。

    Wang A, Singh A, Michael J, Hill F, Levy O, Bowman S. GLUE:一种用于自然语言理解的多任务基准和分析平台。见:2018 EMNLP研讨会论文集BlackboxNLP:分析和解释NL的神经网络。计算语言学协会,布鲁塞尔,比利时2018;p . 353 - 355。

  34. 34。

    Liu Y, Ott M, Goyal N, Du J, Joshi M, Chen D, Levy O, Lewis M, Zettlemoyer L, Stoyanov V. RoBERTa:一种鲁棒优化的BERT预训练方法。arXiv预印本arXiv:1907.116922019.

  35. 35。

    陈敏,陈敏,陈敏,陈敏,陈敏,陈敏,陈敏,陈敏,陈敏,陈敏。见于:国际学习表示会议;2020.

  36. 36.

    斯坦福大学基于图的神经依赖解析器在CoNLL 2017共享任务。在:CoNLL 2017共享任务进展:从原始文本到通用依赖项的多语言解析,2017;20 - 30页。

  37. 37.

    车W,刘Y,王Y,郑B,刘T。实现更好的UD解析:深层上下文化单词嵌入、集成和树库连接。In:CoNLL 2018年会议记录共享任务:从原始文本到通用依赖的多语言解析。计算语言学协会,比利时布鲁塞尔,2018年;P55–64.

  38. 38.

    Kanerva J,Ginter F,Miekka N,Leino A,Salakoski T. Turku神经解析器管道:康普2018年共享任务的端到端系统。在:Conll 2018共享任务的程序:从原始文本到通用依赖性的多语言解析。计算语言学协会,2018;p。133-142。

  39. 39.

    75种语言,1种模型:普遍解析通用依赖关系。见:2019年自然语言处理经验方法大会暨第九届国际自然语言处理联合会议论文集(EMNLP-IJCNLP)。p . 2779 - 2795。

  40. 40

    Choi JD,Palmer M。清除样式成分到依赖项转换的指南。技术报告。2012;01–12.

  41. 41

    De Marneffe M-C, Manning CD。斯坦福打字依赖手册。技术报告,斯坦福大学技术报告;2008.

  42. 42

    德马尔尼夫M-C、多扎特T、西尔维拉N、哈维林K、金特F、尼维尔J、曼宁CD。通用斯坦福依赖:一种跨语言类型学。过程。LREC。2014;14:4585–92.

    谷歌学术搜索

  43. 43

    Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin i。中国科学:信息科学,2017;p . 5998 - 6008。

  44. 44。

    Pyysalo S, Ginter F, Moen H, Salakoski T, Ananiadou S.面向生物医学文本处理的分布式语义资源。见:LBM论文集。2013;p。39-44:

  45. 45。

    邱B,克莱顿G,尔霍宁A,Pyysalo S.如何培养良好的口碑的嵌入生物医学NLP。在:生物医学自然语言处理,2016年第15届研讨会论文集;p。166-174。

  46. 46。

    关键词:科学文本,语言模型,语言模型见:2019年自然语言处理经验方法大会暨第九届国际自然语言处理联合会议(EMNLP-IJCNLP)论文集。中国计算语言学协会,香港2019;p . 3615 - 3620。https://doi.org/10.18653/v1/D19-1371

  47. 47。

    彭宇,陆志强。生物医学自然语言处理中的迁移学习:基于BERT和ELMo数据集的评价。见:2019年生物医学自然语言处理研讨会论文集,2019;58 - 65页。

  48. 48.

    Lee J, Yoon W, Kim S, Kim D, Kim S, So CH, Kang J. BioBERT:一种用于生物医学文本挖掘的预训练生物医学语言表示模型。生物信息学。2020;36(4):1234 - 40。

    中科院PubMed谷歌学术搜索

  49. 49.

    Zhu Y, Kiros R, Zemel R, Salakhutdinov R, Urtasun R, Torralba A, Fidler S.对齐书籍和电影:通过看电影和阅读书籍走向故事般的视觉解释。[j] .计算机工程与应用,2015,35(6):816 - 824。19-27页。

  50. 50.

    IWPT 2020共享任务解析为增强的通用依赖项概述。第16届国际解析技术会议论文集和IWPT 2020解析为增强通用依赖项的共享任务。计算机语言学协会,在线2020;p . 151 - 161。

  51. 51.

    Kanerva J, Ginter F, Pyysalo S. Turku增强解析器管道:从原始文本到IWPT 2020共享任务中的增强图。第16届国际解析技术会议论文集和IWPT 2020解析为增强通用依赖项的共享任务。计算机语言学协会,在线2020;p . 162 - 173。

  52. 52

    基于UDPipe的Tokenizing, POS tagging, lemmatizing and parsing UD 2.0。在:CoNLL 2017共享任务进程:从原始文本到通用依赖项的多语言解析。计算语言学协会,温哥华,加拿大2017;p . 88 - 99。

  53. 53

    引用本文:陈志强,陈志强,陈志强。广义解离器:用于解离普遍依赖树库的序列到序列模型。自然语言工程。2020;p。行。https://doi.org/10.1017/S1351324920000224

  54. 54

    使用python进行自然语言处理:使用自然语言工具包分析文本。马萨诸塞州波士顿:O 'Reilly Media;2009.

  55. 55

    Andor D, Alberti C, Weiss D, Severyn A, Presta A, Ganchev K, Petrov S, Collins M.全局归一化过渡神经网络。发表于:计算语言学协会第54届年会论文集。计算语言学协会,2016;p . 2442 - 2452。

  56. 56。

    基于卷积神经网络和增量句法分析的自然语言理解。

下载参考

确认

我们希望感谢匿名审稿人对这项工作的深刻评论。我们非常感谢CSC - IT科学中心在模型训练和评估工作中使用的计算资源。这项工作得到了芬兰科学院的部分支持。

关于这个补充

本文已作为BMC生物信息学的一部分发表,第21卷,补充23,2020:BioNLP开放欧宝娱乐合法吗共享任务的最新进展-第1部分。该补充剂的全部内容可在//www.christinemj.com/articles/supplements/volume

资金

经费由芬兰科学院提供。

作者信息

隶属关系

作者

贡献

JK和FG创建了Turku Parsing管道。JK进行了主要实验,并写了初始稿件草案。SP执行了额外的分析并完成了稿件。所有作者阅读并认可的终稿。

通讯作者

对应到珍娜·卡内尔瓦

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

补充资料

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放获取本文根据知识共享署名4.0国际许可证获得许可,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,前提是您给予原作者和来源适当的信任,提供知识共享许可证的链接,并说明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可证中,除非在材料信用额度中另有说明。如果文章的知识共享许可证中未包含材料,且您的预期用途未经法定法规许可或超出许可用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/.创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

卡内尔瓦,J.,金特,F.&皮萨洛,S。基于BERT的生物医学文本依存分析。欧宝娱乐合法吗21,580 (2020). https://doi.org/10.1186/s12859-020-03905-8

下载引用

关键字

  • 解析
  • 深度学习
  • 工艺