跳到主要内容

PaperBot:科学文学的开源基于Web的搜索和元数据组织

抽象的

背景

生物医学文献正以越来越快的速度扩展,对于研究人员来说,跟上新数据和新发现,即使是在他们自己的专业领域,也变得非常具有挑战性。我们引入PaperBot,这是一个可配置的、模块化的、开源的爬虫程序,可以根据出版商门户网站的定期全文搜索,自动查找同行评议的出版物并为其编制索引。

结果

PaperBot可以独立运行,也可以轻松地与其他软件平台和知识库集成。在没有用户交互的情况下,PaperBot根据预先设置的搜索逻辑,从包括Elsevier、Wiley、施普林格、PubMed/PubMedCentral、Nature和谷歌Scholar在内的广泛来源检索和存储书目信息(完整参考文献、相应的电子邮件联系人和全文关键词点击)。尽管不同的发布站点需要不同的搜索配置,但PaperBot的公共界面从用户的角度统一了这一过程。一旦保存,所有信息都可以通过web访问,允许根据文章的实际相关性对文章进行有效分类,并对合适的元数据内容进行无缝注释。该平台允许敏捷地重新配置所有关键细节,比如搜索门户、关键字和元数据维度的选择。该工具还提供了一键式选项,可通过数字对象标识符或PubMed ID手动添加文章。PaperBot的微服务体系结构将这些功能作为不同模块的松散耦合集合来实现,这些模块被设计为单独工作,或作为一个整体,或与其他软件集成或被其他软件取代。所有元数据存储在一个无模式的NoSQL数据库中,该数据库旨在通过最小化关系模型和内存数据结构之间的阻抗不匹配来有效地在集群中扩展。

结论

作为测试平台,我们部署了PaperBot以帮助识别和管理与神经元形态的数字重建有关的同伴审查的文章,以支持Neuroomorpho.org数据库。PaperBot使普通和神经科学特异性元数据尺寸的自定义定义,例如动物物种,脑区,神经元类型和数字追踪系统。自部署以来,PaperBot帮助NeuroomOrpho.org超过了大写的加工信息的年龄,同时保持稳定的人员劳动力。

背景

科学文献是用于传播原创研究的主要媒介。同行评审文章的公共可用性对于进步至关重要,允许获得新发现,评估结果,实验的繁殖以及持续的技术改善。生物医学社区致力于提取出版物的知识和数据的大量投资,以促进重新利用额外发现。许多生物信息学项目突出地依赖于仔细的数据整理,标准化和注释,在通过万维网自由分享策策知识时提供相当大的附加值。

然而,生物医学文献的增长率不断增长,使研究人员越来越具有挑战性,即使在他们自己的专业领域中也能够了解新数据和发现。许多实验室越来越依赖于通过会员电子邮件列表或社交媒体报告的出版指针。这一过程带有缺少重要数据的大量风险,因此不适合需要全包覆盖的全面策划工作。此外,依靠高度集群的网络减少了不同科学领域的交叉施肥的机会,这些科学领域可能仍然可以共享非琐碎的要素。这种无法有效地挖掘文献的进一步后果是对较少,高度引用的参考资料和减少对大多数有价值的贡献的研究影响的识别的过度依赖[1].

健壮的工具可以帮助完成与文献管理相关的特定任务,特别是用于参考组织和内容注释。第一类中的系统创建了可定制的工作空间,用于在撰写手稿时选择、跟踪和格式化引用,包括商业解决方案,如EndNote [2和Zotero等开源替代品[3.],门捷利[4],及F1000 [5]. 第二类系统提供了突出显示和评论用户选择的文章部分的方法。例子包括假设[6,它允许共享集体贡献,微博客网[7],这表明来自用户行为的注释,Brat [8]支持概念之间的复杂关系和神经还是Toolbox [9],促进受控词汇的策序。苏里拉德发现者提供附加功能[10.,这有助于查找谁引用了给定的文章。

但是,上述平台都没有直接解决连续、系统地识别给定领域相关信息的开放性问题。这一过程仍然是困难和缓慢的,它经常是填充和维护数据库和知识库的最严重瓶颈。为了缓解这一问题,BIOSMILE [11.]被引入到定制设计的PubMed查询中;此外,G-Bean [12.]使用Medline数据库进行基于本基于本体图的查询扩展,自动文档索引和用户搜索意图发现。与pubcrawler [13.,用户可以自定义PubMed和GenBank的查询,并通过电子邮件收到稍后或经常性的更新。然而,这些工具只搜索标题、摘要和关键字。通常,识别感兴趣的信息最合适的表达式是技术术语,通常可以在方法部分或图形图例中找到。因此,识别这些术语需要全文搜索[14.],这确实被发现比搜索摘要返回更好、更准确的结果[15.].

已经开发了其他工具来解决此限制,但无提供一般解决方案。Biolit [16]使用他们的FTP下载PubMedCentral所有的pdf文件,以增加MedLine数据库的知识,但仅限于开放获取的文献。Omicseq [17]在论文中专门搜索基因名称。可用的爬虫获取Web内容[18](但不是科学出版物)需要事先进行人工注释以识别新内容。重要的是,尽管上述大多数工具都是在网络上免费发布的,但没有开源的代码,而且大多数都不再可用。在对现有模式进行评估和审查后,提出了一套相关指南,以纳入未来的数字图书馆框架[19].

我们引入的工具最初是为了支持NeuroMorpho的生长和数据采集而开发的。Org是一个数据和知识库,旨在为所有神经元形态的数字重建提供不受阻碍的访问[20.].为了识别感兴趣的数据,Neuroomorpho.org策策必须持续跟踪科学文献,以确定是否发表了描述神经元重建的任何新文章。好几年,神经统称策展人每月手动查询六个不同的出版商门户举行所有出版物。查询包括经验选择的80个关键字的适当组合,以最大限度地减少假否定(未错过文章)和误报(无关的命中)。在采用本报告中描述的系统之前,所有返回的标题都与PubMed条目的手匹配,以检索标识符并丢弃先前找到的文章。如果可访问,则下载相关点击,并根据目标数据的存在评估为相关或无关。最后,对于每个相关记录,在请求数据之前,提取了作者联系信息和必要类别的元数据(例如动物物种,大脑区域,细胞类型,重建软件和公开参考)。激励该项目的主要要求是所描述的手动过程的自动化,以减少神经元数据采集的时间,并促进与每篇文章相关的数据状态(请求,接收或释放)的跟踪过程。二次要求是能够以自动态Web门户上次访问以来显示所有新潜在相关的文章。我们展示了如何自动化的步骤每单位时间基本上增加数据产量,而不会降低资源的扩大。

所有主要的出版商都有不需要商业许可证的全文本搜索接口,但是每个接口在编程访问和输出格式方面都是不同的。因此,全文搜索在很大程度上仍然需要人工干预和容易出错的人工干预。到目前为止,大多数用计算机技术支持这些工作的尝试都涉及到为个别项目开发的特别脚本。谷歌Scholar和相关搜索引擎原则上可以搜索到网络上的所有公开内容,但没有API,使用不可修改的专有排名系统,不返回唯一标识符,并经常截断结果(标题、作者和日期)。非营利性搜索引擎只搜索标题和摘要(PubMed)或开放获取出版物(PubMedCentral)。克服这些限制需要一个与多个独立出版商搜索引擎交互的新系统。

在这里我们介绍PaperBot,这是一个免费的、可扩展的、开源的软件程序,它可以半自动地对所有主要出版商和文献门户的相关出版物进行全文搜索和索引,以便于任何旨在从已发表的文章中识别和提取数据的实验室。PaperBot可以安装在服务器或个人计算机中,并被设计成以最小的努力集成到正在进行的知识挖掘项目中。该平台不同于现有文献管理解决方案,并在现有文献管理解决方案的基础上进行了改进,实现了对机构许可允许的文献的自主、定期查找和保存。结果可以立即通过基于网络的图形用户界面进行评估。当管理员为每一篇文章贴上相关或不相关的标签,添加或编辑元数据时,PaperBot将条目实时存储到信息技术服务中。用户可以使用从数据库检索的自由文本、本体或受控词汇表对条目进行注释。该工具可以针对不同的项目进行定制,每个项目都有不同的文章相关性标准和单独指定的分类过程。

应用程序工作流程

PaperBot对科学出版物进行自动化的、定期的全文搜索,并为其注释提供一个符合人体工程学的有效网络界面(图。1).可配置的爬网程序根据用户定义的布尔的搜索术语选择和收集来自多个期刊门户网站的内容,并提取包括标题,日记参考,作者姓名和电子邮件联系人的书目详细信息。数据检索利用应用程序编程接口(API),其中可用(elestvier / sciencedirect,springer,nature和pubmed / pubmed central)。无法在使用条款允许的限制范围内刮擦未提供API访问权限(Google Scholar和Wiley)的出版商。默认情况下,软件的刮刀部分关闭,但用户可以选择在验证每个发布者的策略后激活它。

图。1
图1

PaperBot文章采矿管道。识别包含感兴趣数据的同行评审出版物的过程流程图

经常性搜索通常返回不同门户的重复文章(例如elessvier和pubmed central)或在不同时间的同一个门户中。要识别重复项,PaperBot使用三个并行方法进行比较针对所有先前结果的每篇文章:PubMed或PubMed中央标识符(PMID或PMCID)的完全匹配,数字对象标识符(DOI)的完全匹配,以及使用Jaro的标题的近似匹配-winkler距离[21]精确为0.85。我们经验发现此阈值,以确保对跨门户网站的特殊字符的非统一表示的鲁棒性,并在某个字符长度上的物品标题的可变修剪。PaperBot合并并更新从复制文章中检索的所有信息,包括检测到的关键字和搜索门户,以及新添加的数据(例如,当文章在出版后几个月收到PMID时)。

接下来,PaperBot自主地尝试使用CrossRef注册机构提供的指针下载PDF。PDF可访问性取决于文章打开访问状态或对给定日志的机构/个人订阅,通常基于纸张划线的服务器的IP地址。可访问的文章存储在评估集合,而无法下载PDF的文章则保存在难以置信记录集合。该软件将自动重新检查这些不可访问的记录在所有未来的搜索,因为一些文章可能会从相同或不同的来源,由于延迟开放访问发布或新的期刊订阅。当最终获得过去不可访问的文章的PDF时,PaperBot将相应的记录移动到评估水池。

所有在评估可以审查和注释集合。虽然这一步骤需要人类交互,但符合伪装的纸张的Web界面使策良过程简单,快速,稳健。用户可以认为每个相关的文章(积极的收集)或无关的(集合)遵循项目特定的标准。另外,未判断的文章可以移到备用审查收集并附上个人笔记,以便进一步检查。此选项允许多个用户查看单个文章和/或就其相关性展开在线讨论。最后,PaperBot根据根据项目需求或调查者偏好指定的可定制元数据维度集合,提示并促进用户注释。

而在这项工作中,我们展示了PaperBot在NeuroMorpho上的成功应用。Org,大多数数据库和知识库项目也依赖于文献内容管理,因此可以同样地从这个工具中受益。只是在有用的神经科学资源中[22,例如ModelDB [23包含了在神经元和电路水平上跨越广泛的生物物理机制的模拟就绪计算模型。生物模型资料库[24提供了生物化学动力学和分子级联的补充重点。NeuroElectro [25]提供从主要神经元类型中提取的常用电生理参数的文献值。CoCoMac [26]是猕猴Cortex的连接数据库。其他类似的项目包括脑霉素[27], SenseLab [28], Wormatlas [29],大脑操作数据库[30.、开源大脑[31]和hippocampome.org [32].在人类全脑非侵入性成像,NITRC [33]既是一个神经影像数据仓库,也是一个寻找神经信息学工具和资源的门户网站。该领域的一个突出项目是阿尔茨海默病神经成像计划(ADNI),该项目提供了关于这种病理生物标志物的广泛纵向数据,包括分子诊断、大脑扫描和认知测试[34].其他示例包括自闭症脑成像数据交换(遵守)[35],其具有相应的表型信息的功能和结构磁共振成像数据集,以及开放访问系数研究(OASIS)[36],提供数据集的痴呆和非痴呆科目。

执行

我们将PaperBot设计为灵活、可扩展且随时可用。这部分是通过实现微服务体系结构实现的[37].关键的想法是将应用程序构建为实现业务能力的松散耦合服务的集合。每个服务都可以独立于其他服务部署,允许最终用户根据其需求配置平台。服务使用代表状态传输(REST)Web API以轻量级方式通信[38].REST体系结构样式在组件之间传输数据表示。所有的服务都是用Java编写的,尽管设计允许对其他服务集成不同的语言。由于其在集群中的可伸缩性,我们使用了NoSQL数据库MongoDB。MongoDB解决了关系模型和内存中的数据结构之间的不匹配,是无模式的,并自然地与数据聚合工作[39].

具体地,该系统由三个数据库组成,该数据库存储所有信息,Web界面和五个核心Web服务,每个数据库在嵌入式servlet容器中运行(图。2).我们将在下面描述每个组件。

  1. 1)

    门户与关键词数据库存储用于访问发布者门户的配置,例如URL,访问令牌,已配置的搜索项,查询的开始日期,以及(de)的标志激活下一个搜索周期/运行的每个门户。此数据库还记录了一个活动日志,详细说明每个执行的开始/结束时间和输出状态,即搜索是否返回错误,由用户中断,或成功完成。

    图2
    图2.

    PaperBot MicroServices信息流。矩形表示运行嵌入式servlet容器的Web应用程序及其主要方法(CRUD是创建,读取,更新和删除的首字母缩写)。箭头表示服务之间数据的流动方向。旋转的数字指向讨论“中包含的每个组件的细节执行“文本的部分

  2. 2)

    文献数据库存储纸张上记录的每个出版物的书目信息:PMID,DOI,标题,日记参考,出版日期,作者姓名和可用时的相应电子邮件。每个记录还包括有关相关搜索参数的附加信息,例如所识别文章的特定门户和关键字,找到的日期以及用户评估的日期。

  3. 3)

    最后一个数据库,元数据数据库,从每个发布中收集所有提取的元数据注释。它被设计成支持用户需要的任意多的元数据类别,并具有各种类型,如整数、列表、集合、字符串和嵌套列表。每个元数据类别的值可以表示为自由文本,或者由受控词汇表或本体的预先配置进行分隔。默认情况下包含两个元数据类别:一个名为“ismetadataffinished”的布尔字段,用于记录用户是否完成了发布中所有元数据的注释;以及一个自由文本字段“Note”,允许用户向每条记录添加个性化信息或评论。

PaperBot的web界面提供了对系统功能和出版物目录的友好访问。图中描述了浏览、检查和注释出版物的界面。3.4.以下是Web界面的关键组件。

  1. 4)

    文学网站允许用户在其余的服务中协调所有交互。它以JavaScript / CSS / HTML编写并使用AngularJS设计,由Google创建的一个开发框架,用于构建移动和桌面Web应用程序。前页包括搜索配置的链接,出版物的评估和评估,以及直接访问三个主要系列:正,负和无法访问的物品(图。3.最佳)。搜索配置有助于管理搜索门户,搜索时间跨度和关键字。函数包括启动和停止搜索,显示有关正在进行的搜索或上一个活动日志的信息,以及在需要情况下重置整个数据库的选项(图。3.底部)。

    图3.
    图3.

    PaperBot门户接口。上图:主菜单。底部:搜索配置界面

    图4.
    图4.

    PaperBot门户接口。顶部:通过搜索找到的文章出版物列表。底部:包含书目数据的文章接口和用于注释出版物的元数据管理接口

    公共接口允许用户浏览评估的出版物以及基于其标题和关键字进行评估的界面(图。4最佳)。扩展名单分为分页,可以通过发布日期,标识符或标题进行排序,并由发布标识符,标题或作者过滤。单击任何标题将打开一个新页面,其中包含详细的书目信息,元数据注释(如果有的话),以及更新和/或删除该发布的选项(图。4底部)。元数据选择是高度模块化的,允许通过更新HTML源代码定制注释设置和术语。除了自动搜索确定的文章外,该界面还允许用户使用PMID或DOI半手动或手动插入所有相关字段来添加新出版物

其余五个服务构成了系统的内部发动机。以下有关每个服务功能的扩展信息。

  1. 5)

    文献检索服务负责从不同的发布商门户搜索,检索和存储书目信息,因此可以被视为PaperBot的核心。由于不同的发布者使用不同的搜索接口具有不同的输入要求,因此此服务将来自用户的指令映射到各个门户的所需格式。具体地,文献搜索服务从门户和关键字数据库读取搜索表达式,搜索日期和搜索门户的门户专用配置。这些查询参数在搜索范围内修复,但用户可以将它们从一个搜索更改为另一个搜索。服务搜索(不区分大小写)术语或精确的短语(通过添加引号“”),通过逻辑和/或(大写)操作数组合,其中用于添加优先级的括号。搜索的示例是:(形态或形态“neuroomorpho.org”)和“神经元重建”。功能的某些方面取决于被查询的门户:例如,所有门户网站都不能使用除Google学者之外的所有门户,这不支持它。APIuse the lemma of the word for searching: as a case in point, translating the word ‘neurons’ into ‘neuron OR neurons’. PubMed performs MeSH searches, automatically expanding a word into the set of all its matching synonyms within the controlled vocabulary. In all cases, the returned entries are displayed in the PaperBot web page as a table that can be sorted by PMID, title, published date, or search date.

    文献检索服务沟通与文学服务存储从出版商门户网站收集的书目信息。对于所获取的每个出版物,文献搜索服务记录每个查询的信息(哪个门户网站和关键字识别出版物),然后调用PubMed服务检索互补数据,即其关联的标识符(PMID或PMCID)和相应的作者的电子邮件。使用这些数据,文学服务要么将发布保存为新条目或更新现有条目。如果新出版物的PDF文件未在本地保存,则该服务将数据传递给十字架服务要求下载。根据下载过程是否成功,更新文件的下载状态。当出版物由出版商付费时,下载状态将取决于与PaperBot主机相关联的凭据。如果文件最终无法访问,文章将被移到“Inaccessible”集合。在未来的搜索中,该服务将再次检查下载是否可能。工厂模式用于实现不同门户的功能。我们统一用户的搜索,因为每个API的工作方式不同:为了构建查询,我们将每个门户所需的参数与根URL连接起来,并将关键字转换为门户需求。例如,Nature查询在单词之间使用字符' + '而不是空格;某些api返回XML,而另一些返回JSON;有些发布者门户允许按年和月进行过滤,有些则只允许按年进行过滤(PaperBot允许按年、月和日进行完整的日期过滤,将文章的发布日期与用户提供的过滤日期进行比较,并丢弃超出范围的文章); scraping is needed when no API is provided, using a headless webpage library that waits until the page fully loads, then reads the html tags and its content. When no results are returned from the query, the process continues to the next query.

    每个关键字查询都与数据保存在数据库中的特定用户定义集合相关联。这个设计元素提供了额外的灵活性:虽然PaperBot成立援助密集的文献报道在给定的领域,集用于保存文章根据查询功能可以利用其他项目有不同的需求,例如,可以将一个或两个引用足以支持一块相关的知识。在那个可选的场景中,一旦确定了引用,与查询相关联的集合就可以更新为“已经确定”的状态。

  2. 6)

    文学服务管理存储在文献数据库中的所有书目数据。它是唯一可以访问此信息的过程。系统中的任何其他服务必须通过使用公共API来检索这些详细信息。该设计提供了数据库和系统其余部分之间的隔离。文献服务具有创建,更新,删除,读取和计算出版状态,管理项目列表和存储或更新不同搜索结果的方法。该服务通过数据库中的所有集合进行了通过数据库中的所有集合来接收每个文件,比较PMID,PMCID,DOI和近似标题(使用Jaro-Winkler距离匹配)。如果未找到文章,则保存新文章;否则,服务检查数据库中存储的文章中缺少搜索(DOI,PMID,发布日期)检索的任何信息元素是否缺少并根据需要填充它;当首次被检测为BiorXiv预印刷品时,这是尤为重要的,后来作为对等审查文章。该服务还使用类似于AddToSet的更新操作检查对对象数组的表单对应的关键字和门户名称:即,除非已存在该值,否则将值添加到阵列中,从而避免创建 duplicates.

  3. 7)

    元数据服务负责从出版物中提取的数据的注释。元数据值可以来自自然语言概念,也可以从数据库或本体等受控源检索。该服务旨在管理任何类型的对象,允许对其配置进行完全定制。为了提供这种灵活性,代码使用弱类型数据(Java中的类型对象)实现。尽管它更加通用,但它依赖于web界面来保持数据库的一致性。

  4. 8)

    PubMed服务访问NCBI的PubMed和PubMedCentral编程接口,可使用文档的标题检索PMID和PMCID标识符和扩展的书目信息。该服务将完整的出版物记录返回到其余的服务,包括手动查询,以基于PMID或PMCID添加新的出版物文学网站接口。当使用标题获取标识符时,NCBI通常会返回多个文章,这是由于每个术语的MeSH扩展;PaperBot PubMed Service使用不同的API调用提取每个返回的文章信息,并基于Jaro-Winkler距离(硬阈值为0.9)确定最佳匹配。

  5. 9)

    十字架服务查询国际DOI基金会的CrossRef注册机构通过其DOI获取出版物的唯一资源定位器(URL)。服务收到了一个请求文献检索服务对于新发现的出版物的相关网址。该服务也与之互动文学网站当用户使用其唯一的DOI手动添加一个新发布,或通过单击CrossRef按钮请求更新可能丢失的信息时。目前,文章PDF文件以blobs的形式保存在数据库中,并从web页面加载供用户访问。这种选择意味着对大量文章的更高RAM需求。如果项目不需要PDF注释,并且需要很高的负载,我们建议将文章文件存储在硬盘驱动器中。

结果

作为PaperBot的代表性测试,超过两年,我们利用了所描述的功能,以支持数据共享存储库Neuroomorpho.org。这种流行的神经科学资源的范围涉及对同行评审文章中描述的脑细胞形态的数字重建的数字重建[20.]. 具体而言,Neurophoro.Org的使命是让社区免费访问作者愿意公开的所有此类数据。要实现对现有数据如此密集的覆盖,需要认真筛选相关的科学文献。事实上,该项目的成功取决于系统搜索和有效识别任何包含数字重建神经形态学数据的新出版物,然后邀请相应作者共享其数据集。这个过程需要在几个全文搜索引擎上进行一组复杂的组合关键字查询,然后对找到的每一篇文章进行批判性评估和注释。直到最近,这些操作都是人工管理的,这对NeuroMorpho.Org来说是一个劳动密集、耗时且容易出错的瓶颈。类似的情况仍然适用于许多其他生物医学知识库和数据库管理项目。

2016年1月,我们使用纸张图工具的自定义实例替换上述手动过程。在手动处理的最后四年(2012年1月至2015年12月),我们处理了3238篇文章(每年800)。相比之下,在转换后的两年中,我们发现了8207篇文章(每年4100)。因此,纸波的部署增加了五倍的吞吐量(图。5),同时在评估团队中保持稳定的劳动力。

图5.
图5.

神经科学项目NeuroMorpho.Org的文章搜索和评价趋势。按月增量(双月标签)挖掘并评估为相关(绿色)和非相关(红色)的文章的累积曲线。蓝色阴影突出了在2.5年期间的PaperBot使用情况,而之前的手工流水线使用了4年

有趣的是,PaperBot发现的文章包括3905篇2016年之前的出版物,而这些出版物之前并未被手动系统检测到,这主要是因为适合手动搜索的关键词选择必须更加有限。具体而言,自动化使每个门户的查询数量从80个增加到900多个关键字组合,这对于人工操作员来说几乎是不可能的。一个策展人团队仍在仔细评估每一篇文章,并针对每一篇正面报道提取元数据,如动物物种、大脑区域和细胞类型。然而,PaperBot现在将这些人员从繁重和无趣的任务中解放出来,如定期每月搜索、重复检测和书目信息提取。这导致了将更有意义的工作引入到增加的文章评估量中。完整的NeuroMorpho.Org参考书目可在http://neuromorpho.org/ls.jsp.在那里可以通过数据可用性状态和实验性元数据(动物物种,脑区和细胞类型)来探索和分析它。此外,可以通过API进行编程方式访问Neuroomorpho.org文献数据http://neuromorpho.org/api.jsp.

此外,通过允许更复杂的搜索查询,PaperBot的采用不仅减少了假阴性(缺失的文章)的数量,而且还减少了假阳性(不相关的文章)的数量,进一步提高了注释者的效率。用户友好的web界面极大地便利了文章评价和元数据注释。特别是,所有团队成员访问相同信息的能力有助于在提供一个统一的管理系统来并行地查询文章、请求数据和注释元数据的同时,对“紧急情况”进行集体解决。同时,多个团队成员的广泛使用也确保了健壮的测试和多视角的人机工程学优化。

值得注意的是,我们发现专门依赖一个或两个门户网站不足以跟踪所有文章:换句话说,在所有可用的发布商门户和搜索引擎上并行运行查询的策略是有助于实现密集的文学覆盖(表1).来自总共2637篇证实与NeuroMorpho相关的文章。Org, 195975%)只被一个门户网站发现,表明多个来源在很大程度上是互补的。对于竞争对手的非重叠数据库(如SpringerLink和Elsevier ScienceDirect)来说,这并不意外,但考虑到伞式搜索引擎,这可能会让人感到意外。对这些发现的解释反映了“背景” section: PubMed does not search the full text, PubMedCentral only taps into open access publications, and Google Scholar is typically delayed in indexing new articles especially relative to the publisher’s “ePub ahead of print" publication date. Furthermore, the coverage afforded by the broad selection of portals interacting with PaperBot proved to be comprehensive, since the number of inaccessible articles remained systematically below 1% (26 vs. 2637 confirmed relevant articles as of November 2018).

表1门户搜索结果

纸张进入神经统称中的纸张融入了新的搜索,以监测科学界中项目的影响。利用可定制的纸张设计,我们推出了自动定期查询“NeuroMorpho.Org”作为关键字,并评估检索到的记录的数据使用类型。搜索结果确定了389项直接使用从库中下载的神经元重建的研究,以及另外216篇简单引用或描述该资源的文章。这些搜索的结果和相应的确定的参考文献可以通过http://neuromorpho.org/LS_usage.jsp

总之,PaperBot从同行评审出版物中大大改进了对相关数据的搜索,超过了神经统称的识别物品的年度数量,同时消除了乏味,无增值步骤的人类参与。全部或通过其模块的适当组合此工具可以帮助其他实验室和项目改善其数据采集管道和信息策策工作流程。

结论

科学,一旦少数职业,现在站在许多人的肩膀上,估计网络上有超过1亿学术文件[40].这种知识实际上,个人研究人员或单一的实验室实际上是不可能全面的扫描或审查除了最小的比例之外。完整的情况下,这种大规模文学甚至是最大的组织甚至是最大的组织,如果单独服用:国家医学图书馆和Pubmed“只有”指数2800万条记录,语义学者达到3900万,而Scopus也达到7000万。elsevier,springer和wiley等主要出版商提供了查询“他们的”期刊的搜索工具,使非琐碎的任务融合并将结果组织给客户。今天两个最大的文献爬行者,谷歌学者和微软学术搜索,在许多情况下都没有访问完整的文本内容,除了使用专有算法来排名和过滤结果输出。

许多现代数据驱动的项目都可以从自动识别和消化这一庞大的过剩信息中的相关材料中获益。本文介绍的软件工具通过提供一个开源的、可扩展的和可定制的服务器/客户平台来监视和管理过去、现在和未来的科学出版物,填补了自动化的需求。PaperBot没有链接到任何特定的中央服务器,它是独立运行的,可以安装在本地或云中。PaperBot的设计是永久性的和自更新的:所有识别的内容始终保持存储,供用户随时访问;同时,自主背景搜索定期扫描文献,以更新最新出版物的内容。

通过对NeuroMorpho的应用,证明了PaperBot使注释文献数据库的快速增长。Org,开启了令人兴奋的新前景。可以对大量已归档的积极或消极的出版物及其关键词组合和文献信息(期刊来源、作者身份等)进行分析和挖掘,以进一步改进搜索过程和未来的关键词选择。此外,积累的数据可以用来训练最先进的机器学习算法,根据与项目的潜在相关性对新发现的项目进行排名。进一步的发展可能需要通过文本实体的自动提取和分类来对元数据维度进行机器注释。

除了直接用于维护和增长依赖文献的数据库外,PaperBot还可以用于其他应用。学生可以使用它来监控感兴趣的子领域,同时为他们的项目寻找合适的主题。研究人员将有一种方法来检测研究类似技术的同辈小团体。主要研究人员可以通过明确识别社区中关键的知识差距来加强他们的奖助金提案。相反,供资机构可以利用彻底和连续的文献扫描来评估评价期间正在进行的和过去的项目的影响。

可用性和需求

PaperBot及其代码根据BSD许可的三个条款获得许可[41].源代码存放在GitHub上,可在https://github.com/NeuroMorphoOrg和纸滴实施的功能演示可用于公开测试http://paperbot.io.

项目名:paperbot.

项目主页:欧宝直播官网apphttp://paperbot.io.

操作系统:平台独立

编程语言:Java, Javascript, HTML, CSS

其他要求:MongoDB

许可:三个条款BSD

源代码:https://github.com/NeuroMorphoOrg

参考文献

  1. 1

    默顿rk。科学中的效果:考虑了科学奖励和通信系统。科学。1968年;159(3810):56-63。

    PubMed谷歌学术

  2. 2

    Agrawal A. Endnote 1-2-3 Easy !:专业的参考管理。布鲁克林;2007年。

  3. 3.

    Puckett J. Zotero:图书馆员、研究人员和教育工作者指南。芝加哥:学院和研究图书馆协会;2011.

    谷歌学术

  4. 4

    Zaugg H,West Re,Tateishi I,Randall DL。Mendeley:通过研究合作创建学术询问的社区。技术趋势。2011;55(1):32-6。

    谷歌学术

  5. 5

    F1000建议作为一种潜在的研究评估的新数据源:与引文的比较。J Assoc Inf Sci Technol. 2014;65(3): 433 - 45。

    谷歌学术

  6. 6

    Perkel JM。注释学术网站。自然。2015;528(7580):153。

    CAS.PubMed谷歌学术

  7. 7

    伊曼SM,古列维奇一世,卡斯蒂略,比曼C。Webanno:一个灵活的、基于web的、可视化支持的分布式注释系统。摘自:计算语言学协会年会论文集:系统演示。索菲亚:计算语言学协会:2013年。1–6.

    谷歌学术

  8. 8

    Stenetorp P, Pyysalo S, Topić G, Ohta T, Ananiadou S, Tsujii J. Brat:基于网络的nlp辅助文本注释工具。发表于:计算机语言学协会欧洲分会第十三次会议的演示会议记录。阿维尼翁:计算语言学协会:2012。102 - 7页。

    谷歌学术

  9. 9

    基于神经科学文献的协同整理框架。Neuroinformatics前面。2017;十一27。

    谷歌学术

  10. 10.

    Volanakis A,Krawczyk K. Sciride Finder:生物医学文献搜索中的基于引文的范式。SCI REP。2018;8(1):6193。

    PubMedpmed中央谷歌学术

  11. 11.

    傣族j,黄C-h,林Rt,Tsai RT-H,HSU W-L。Biosmile Web搜索:用于注释生物医学实体和关系的Web应用程序。核酸Res. 2008;36(SUPPLE_2):390-8。

    谷歌学术

  12. 12.

    王吉兹,张义,董立,李尔,斯里曼尼PK,菲利普SY,王JZ。G-Bean:基于本体图形的生物医学文献检索的Web工具。欧宝娱乐合法吗BMC生物信息学。2014;15(12):1。

    谷歌学术

  13. 13.

    霍坎普K,沃尔夫KH。Pubcrawler:与pubmed和genbank保持舒适的联系。核酸Res. 2004;32 (suppl_2):拿下。

    谷歌学术

  14. 14.

    Hemminger BM, Saelim B, Sullivan PF, Vision TJ。两组生物医学文献中基因的全文检索与元数据检索的比较。中国科学技术杂志。2007;58(14): 2341 - 52。

    CAS.谷歌学术

  15. 15.

    搜索全文是否比搜索摘要更有效?欧宝娱乐合法吗BMC生物信息学。2009;10(1): 46。

    PubMedpmed中央谷歌学术

  16. 16

    Fink JL, Kushch S, Williams PR, Bourne PE。bioolit:整合生物文献与数据库。核酸Res. 2008;36 (suppl_2): 385 - 9。

    谷歌学术

  17. 17

    孙旭,Pittard WS, Xu T, Chen L, Zwick ME, Jiang X, Wang F, Qin ZS。一个基于网络的搜索引擎,用于探索组学数据集。核酸Res. 2017;45 (W1): 445 - 452。

    谷歌学术

  18. 18

    徐S,Yoon H-J,Tourassi G.一个面向用户的Web履带,用于选择性地获取电子健康研究中的在线内容。生物信息学。2013;30(1):104-14。

    PubMedpmed中央谷歌学术

  19. 19

    Fuhr N, Tsakonas G, Aalberg T, Agosti M, Hansen P, Kapidakis S, Klas C-P, Kovács L, Landoni M, Micsik A,等。数字图书馆评价。Int J Digit lib . 2007;8(1): 21-38。

    谷歌学术

  20. 20.

    Ascoli Ga,马拉弗P,纳达S,Polavaram S,Armañanzasr.在神经科学中共享的双赢数据共享。NAT方法。2017年;14(112):112-6。

    CAS.PubMedpmed中央谷歌学术

  21. 21

    DreßlerK,Ngonga Ngomo A-C。论有限的Jaro-Winkler距离的有效执行。Semant Web。2017年;8(2):185-96。

    谷歌学术

  22. 22

    神经信息学。Scholarpedia。2015;10(11): 1312。

    谷歌学术

  23. 23

    Hines Ml,Morse T,Migliore M,Carnevale NT,Shepherd Gm。ModeldB:支持计算神经科学的数据库。j计算neurosci。2004;17(1):7-11。

    PubMedpmed中央谷歌学术

  24. 24

    Le Novele N、Bornstein B、Broicher A、Courtot M、Donizelli M、Dharuri H、Li L、Sauro H、Schilstra M、Shapiro B等。生物模型数据库:一个自由、集中的生物化学和细胞系统的策划、出版、定量动力学模型数据库。核酸研究,2006年;34(补充1):689-91。

    谷歌学术

  25. 25

    Tripathy SJ, Savitskaya J, Burton SD, Urban NN, Gerkin RC。神经电:世界神经元电生理学数据的一个窗口。Neuroinformatics前面。2014;8(40): 1 - 11。

    谷歌学术

  26. 26

    Stephan Ke,Kamper L,Bozkurt A,Burns G,Young MP,KötterR.高级数据库方法,用于猕致大脑(Cocomac)的连接数据排列。Philos Trans R SoC B. 2001;356(1412):1159-86。

    CAS.谷歌学术

  27. 27

    Beeman D,Bower JM,De Schutter E,Efthimiadis en,Goddard N,Leigh J.基于Genesis模拟器的神经元数据库。Mahwah:Lawrence Erlbaum Associates公司;1997年。

    谷歌学术

  28. 28

    Shepherd Gm,Healy MD,歌手MS,Peterson,Mirsky JS,Wright L,Smith Je,Nadkarni P,Miller PL。Senselab:多学科的项目。神经素信息学:人脑项目的概述。1997年;1:21。

    谷歌学术

  29. 29

    Altun Z, Herndon L, Wolkow C, Crocker C, Lints R, Hall D. Wormatlas. 2002-2019。http://www.wormatlas.org..2019年1月12日。

  30. 30.

    王志强,王志强,王志强,等。基于神经信息学的脑建模方法及其在脑操作数据库bodb中的实现。Neuroinformatics。2014;12(1): 5-26。

    PubMed谷歌学术

  31. 31

    Gleeson P,Piasini E,Crook S,Cannon R,Steuber V,Jaeger D,Solinas S,D'Angelo E,Silver Ra。开源大脑倡议:在计算神经科学中实现协作建模。BMC神经科学。2012;13(4):7。

    谷歌学术

  32. 32

    Wheeler DW, White CM, Rees CL, Komendantov AO, Hamilton DJ, Ascoli GA。海马:啮齿动物海马神经元类型的知识库。Elife。2015;4:09960。

    谷歌学术

  33. 33

    肯尼迪DN,Haselgrove C,Riehl J,Preuss N,Buccigressi R. NITRC图像存储库。神经镜。2016;124:1069-73。

    PubMed谷歌学术

  34. 34

    Weiner MW, Veitch DP, Aisen PS, Beckett LA, Cairns NJ, Cedarbaum J, Donohue MC, Green RC, Harvey D, Jack CR,等。阿尔茨海默病神经成像倡议的影响,2004年至2014年。老年痴呆症痴呆症。2015;11(7): 865 - 84。

    PubMedpmed中央谷歌学术

  35. 35

    Di Martino A,Yan C-G,Li Q,Denio E,Castellanos FX,Alaerts K,Anderson JS,Assaf M,Bookheimer Sy,Dapretto M等人。自闭症脑成像数据交换:迈向自闭症中内在大脑建筑的大规模评价。Mol Psychiattry。2014;19(6):659。

    CAS.PubMed谷歌学术

  36. 36

    Marcus DS, Fotenos AF, Csernansky JG, Morris JC, Buckner RL。开放存取系列影像研究:非痴呆和痴呆老年人的纵向mri数据。J congn Neurosci. 2010;22日(12):2677 - 84。

    PubMedpmed中央谷歌学术

  37. 37

    构建微服务:设计细粒度系统。塞瓦斯托波尔:O ' reilly媒体;2015.

    谷歌学术

  38. 38

    现实RT,泰勒RN。现代Web架构的原理设计。ACM Trans Internet Technol(Toit)。2002;2(2):115-50。

    谷歌学术

  39. 39

    Sadalage PJ,Fowler M. NoSQL蒸馏出来:新兴世界持久性世界的简要指南。Crawdsforville,印第安纳州:Pearson教育;2012年。

    谷歌学术

  40. 40

    Khabsa M,Giles Cl。公共网络上的学术文件数量。Plos一个。2014;9(5):93949。

    谷歌学术

  41. 41

    倡议OS等。BSD 3条款许可。http://opensource.org/licenses/BSD-3-Clause.2019年1月14日访问。

下载参考

确认

作者感谢Jeffrey Hoyt提供的初步技术建议,感谢Masood Akram提供的关于PaperBot功能的广泛反馈。本文的出版部分是由乔治梅森大学图书馆开放获取出版基金资助的。

资金

NIH授权R01NS39600,R01NS086082和U01MH114829部分支持此工作。

作者信息

隶属关系

作者

贡献

PM和GAA设计了用户要求,用例和软件架构。PM编写了代码并起草了稿件。标签驾驶项目的初步实施并帮助起草稿件。RA是开发团队的一部分,并帮助编写了手稿和软件文档,进行了深度测试并提高了界面可用性。Gaa引导了学习并编辑了手稿。所有作者阅读并认可的终稿。

通讯作者

对应于Giorgio A. Ascoli.

道德声明

伦理批准和同意参与

不适用。

同意出版

不适用。

相互竞争的利益

提交人声明他们没有竞争利益。

出版商的注意事项

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

附加信息

数据和材料的可用性

源代码存放在GitHub上,可在https://github.com/NeuroMorphoOrg和纸滴实施的功能演示可用于公开测试http://paperbot.io.

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上无限制地使用、分发和复制,前提是你给予原作者和来源适当的荣誉,提供一个到知识共享许可协议的链接,并指出是否作出了更改。创作共用及公共领域专用豁免书(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

Maraver,P.,Armañanzas,R.,Gillette,T.et al。PaperBot:开源的基于网络的科学文献检索和元数据组织。欧宝娱乐合法吗20,50 (2019). https://doi.org/10.1186/s12859-019-2613-z

下载引用

关键字

  • 开源
  • 微服务
  • 科学索引器
  • 云计算软件