跳到主要内容

PDBeCIF:开源的mmCIF/CIF解析和处理包

摘要

背景

生物大分子结构数据超过了科学界几十年来所依赖的传统蛋白质数据库(PDB)格式,但其后续PDBx/大分子晶体信息文件格式(PDBx/mmCIF)的使用仍不广泛。其中一个原因可能是提供了易于使用的工具,这些工具只支持传统格式,但同时也存在正确处理mmCIF文件的固有困难,因为大量的边缘情况使高效解析成为问题。然而,为了充分利用大分子结构数据及其相关注释,如综合/混合方法中的多尺度结构或使用传统方法确定的大分子复合物,有必要尽快完全采用新格式。

结果

为此,我们开发了PDBeCIF,这是一个用于操作mmCIF和CIF文件的开源Python项目。它是wwPDB记录的mmCIF解析器官方列表的一部分,在欧洲蛋白质数据库的流程中大量使用。该软件包可从PyPI存储库免费获得(http://pypi.org/project/pdbecif)及来自GitHub (https://github.com/pdbeurope/pdbecif)以及丰富的文档和许多即用的例子。

结论

PDBeCIF是一个高效且轻量级的Python 2.6+/3+包,没有外部依赖。它可以很容易地与第三方图书馆集成,也可以用于广泛的科学分析。

背景

全球蛋白质数据库(wwPDB) [1]组织管理蛋白质数据库档案(PDB) [2-实验确定的三维结构数据的单一全局存档。结构生物信息学蛋白质数据库研究合作实验室(RCSB PDB) [3.,欧洲蛋白质资料库(PDBe) [4.,日本蛋白质数据库(PDBj) [5.]及BioMagResBank (BMRB) [6.]在大分子3D结构数据的沉积,验证,酶和开放访问传播上进行合作。

自1970年以来,PDB结构一直使用遗留的、人类可读的PDB文件格式进行分发。然而,快速发展的实验和结构测定方法,如低温电子显微镜和综合/混合方法,很快揭示了它的局限性[27.].蛋白质数据库的新标准,PDBX / MMCIF在2014年成为PDB档案的主格式[8.].新的格式利用了来自ASCII集的可打印字符,并基于一个由wwPDB联盟维护和进一步扩展的数据交换字典。它的详细描述可在https://mmcif.wwpdb.org/简单地说,它是CIF格式的扩展[9.是小分子晶体学的金标准。每个文件包含一个或多个以' data_ '为前缀的数据块,并用数据项填充。每个数据项由前导下划线和名称唯一标识。名称由以句点分隔的类别和关键字两部分组成。有两种类型的类别:key-value和tabular。Key-value的特点是每个关键字只有一个字符串类型的值,而tabular是一个字符串数组。由于CIF格式派生自自定义文本归档和检索(STAR)的语法[10., PDBeCIF依赖于社区建立的令牌化解决方案(startools [11.]帮助文件解释。

PDBx/mmCIF格式取代了PDB文件格式,消除了对沉积结构的尺寸限制,并极大地改善了分布在坐标旁边的附加信息的表示。实际上,遗留格式仅在一定程度上支持使用REMARK字段的附加信息;REMARK 350提供了关于晶体学和非晶体学转换以创造具有生物学功能的生物分子的信息。然而,这些信息过去是作为自由文本存储的,因此以编程方式访问很麻烦。另一方面,PDBx/mmCIF文件包含关于大分子程序集(类别:pdbx_struct_assembly)的结构元素的可编程访问的信息,关于此类程序集的生成的详细信息(pdbx_struct_assembly_gen),它们的属性和特性(pdbx_struct_assembly_prop)等等。这种级别的清晰度是通过使用PDBx/mmCIF Exchange Dictionary实现的,该Dictionary使用数据类型、受控字典和范围定义数据项值的验证。受控词典的引入遵循公平原则[12.](即找到的,可访问,可互操作和可重复使用的)。例如,数据项“refine.pdbx_method_to_determine_struct”允许9个不同的值进行新的沉积,这与前几年使用的数十个不同的数据项值直接对比。

尽管有这些改进,科学界仍在采用这种新的文件格式。事实上,一些流行的软件工具仍然依赖于传统的PDB格式[13.14.15.16.],甚至新开发的软件也可能缺乏对mmCIF格式的支持[17.18.]. 为了确保在可预见的未来与科学软件向后兼容,wwPDB为符合PDB格式的归档文件的子集提供了传统PDB格式的结构。尽管如此,总体方向是开发PDBx/mmCIF,以表示丰富的元数据和相关注释,最近决定强制新结构的结晶沉积使用高分子结晶信息文件格式(PDBx/mmCIF),即使这些文件格式与传统格式一致[7.]. 化学成分词典定义的PDB小分子标识符的预期扩展超出了传统PDB格式的限制,这将导致它们在不久的将来普遍不兼容。

因此,通过使更多的软件PDBx/mmCIF格式兼容,社区将受益于新数据标准的加速采收率。为了方便这种转换,我们提供了一个轻量级的通用Python包PDBeCIF。这个包允许从PDBx/mmCIF文件读取和保存到PDBx/mmCIF文件,读取Crystallographic Information files (CIF),并提供了几个方便的方法来优化文件内容的搜索。

实现

PDBeCIF包可以很容易地从PyPI或GitHub安装,并且没有外部依赖。Python 3和遗留的Python 2都受到支持。有许多用例示例的丰富文档可以在https://pdbeurope.github.io/pdbecif/随着按需的在线培训详细解释其功能https://pdbeurope.github.io/api-webinars/webinars/web5/pdbecif.html

这个包包含几个类。其中两个允许读取(CifFileReader)和写入(CifFileWriter)PDBx/mmCIF文件。文件读取的输出可以是普通Python字典、作为CIFWrapper对象提供的对象表示或CifFile对象。每个对象都包含一个稍有不同的用例(请参阅附加文件)1)有关详细信息。

首先,可以将输入文件写入普通Python字典的层次结构中。第一级的键等于数据块id,与该键对应的值是另一个以类别名称为键的字典(图。1).

图1
图1

使用PDBeCIF包读写PDBx/mmCIF文件的模式。该示例显示了代码片段,并将结果显示为与更新的PDB条目“1cbs”部分相对应的Python字典。

其次,CIFWrapper是一个包装器对象,它允许使用Python点表示法访问文件内容,并公开搜索函数以根据字符串条件和正则表达式过滤数据项。

最后,Ciffile数据对象允许轻松修改MMCIF文件的内容,包括添加和删除类别和数据项。解析器包含一种机制,允许丢弃不需要的类别和所选类别的提取,进一步提高解析速度和内存效率。PDBX / MMCIF文件的导出可以使用CiffileWriter及其写入方法来完成,该方法接受所有上述对象作为参数。

结果

如上所述,PDBx/mmCIF文件格式的优势之一是在坐标的旁边包含额外的信息,使数据符合FAIR原则,并提供更完整的生物背景。在许多情况下,这些信息是支离破碎的,只能通过结合不同的专家资源(例如[3.19.20.]PDBE使得更新的PDBX / MMCIF文件可用,具有其他信息。这些文件在核心PDB存档信息顶部推广一致和标准化的元数据,促进了核心交换词典的进一步扩展。最近成立的,社区驱动的PDBE-KB资源[21.]比较坐标的生物上下文,并可能进一步要求扩展Exchange Dictionary,以支持作为PDB mmCIF文件的一部分分发的越来越多的注释。例如,PDB条目中所有构建块的连接性信息编码在类别' _chem_comp_bond '中。在化学成分字典(CCD)中列出的配体和其他小分子也会附带额外的信息,也可以提取,例如关于其他小分子数据库的映射信息、常见同义词或DrugBank [22.选择一些分类。

我们对PDBeCIF v1.5和Python中其他一些流行的mmCIF解析器(如Biopython v1.78)进行了性能比较分析[23.]和py mmcif v0.67[24.]. 我们还选择了当前mmCIF解析器atomium v1.0.9的代表[25.].我们在python 3.9.2中使用conda包管理器安装的MacBook Pro (2.9 GHz四核Intel Core i7)上进行了基准测试。我们测量了连续7次运行的运行时间,并计算平均值。我们选择小蛋白(PDB id: 1tqn)和大分子机器(PDB id: 7cgo)进行比较。这一分析的结果如图所示。2

图2
figure2

Python提供的mmCIF解析器的比较分析。PDBeCIF包在这两种情况下都是最快的,解析时间分别为0.3秒和2.28秒。我们通过丢弃atom_site.类别(pdbecif\u忽略列)。atomium或Biopython比PDBeCIF慢得多的一个原因是PDBeCIF是一个纯算法解析器,不进行任何结构解释。一种比较小蛋白质(PDB id:1tqn,3999个原子)的解析速度。B.比较一个相当大的鞭毛马达钩的解析速度(PDB id: 7cgo;~ 335 k原子)。

总之,PDBeCIF是一个轻量级的Python 2/3包,没有依赖项,它允许操作wwPDB伙伴分发的mmCIF/CIF文件。该项目是开源的,由PDBe团队维护,并在PDBe生产过程中使用,以确保其持续开发和维护。它可以很容易地集成到任何Python项目中,或在软件模块之间的接口上用于格式转换,有望促进PDBx/mmCIF格式的更广泛采用。

数据和材料的可用性

项目名称:PDBeCIF。项目主页:欧宝直播官网apphttps://github.com/pdbeurope/pdbecif. 操作系统:与平台无关。编程语言:Python。其他要求:Python 2.6+/3+。许可证:Apache2.0。非学术人员使用的任何限制:参见许可证。PDBeCIF在PyPI存储库中免费提供(http://pypi.org/project/pdbecif)及来自GitHub (https://github.com/pdbeurope/pdbecif)以及丰富的文档和许多即用的例子。

缩写

wwPDB:

全球蛋白质数据库

PDBx/mmCIF:

高分子晶体学信息文件格式

到岸价格:

晶体信息文件

ASCII码:

美国信息交换标准代码

星星:

自定义文本归档和检索

CCD:

化学成分词典

工具书类

  1. 1。

    Berman H,Henrick K,Nakamura H.宣布全球蛋白质数据库。NAT STRUCT MOL BIOL。2003; 10:980-980。https://doi.org/10.1038/nsb1203-980

    中科院文章谷歌学术搜索

  2. 2。

    wwPDB财团。蛋白质数据库:三维大分子结构数据的单一全球档案。核酸res 2019;47: D520-8。https://doi.org/10.1093/nar/gky949

  3. 3.

    Burley SK,Bhikadiya C,Bi C,Bittrich S,Chen L,Crichlow GV等。RCSB蛋白质数据库:探索生物大分子三维结构的强大新工具,用于基础生物学、生物医学、生物技术、生物工程和能源科学的基础和应用研究和教育。核酸研究2021;49:D437-51。https://doi.org/10.1093/nar/gkaa1038

    中科院文章PubMed.谷歌学术搜索

  4. 4。

    Armstrong博士,Berrisford JM,Conroy MJ,Gutmanas A,Anyango S,Choudhary P,等。PDBe:在PDB中改进大分子结构数据的可查找性。核酸研究,2020年;48:D335-43。https://doi.org/10.1093/nar/gkz990.

    中科院文章PubMed.谷歌学术搜索

  5. 5。

    引用本文:金jo AR, Bekker G-J, Wako H, Endo S, Tsuchiya Y, Sato H,等。日本蛋白质数据库(PDBj)数据输出活动的新工具和功能。蛋白质科学。2018;27:95 - 102。https://doi.org/10.1002/pro.3273.

    中科院文章PubMed.谷歌学术搜索

  6. 6.

    李志刚,李志刚,李志刚,等。BioMagResBank。数据库:D402-8。https://doi.org/10.1093/nar/gkm957

  7. 7.

    Adams PD, Afonine PV, Baskaran K, Berman HM, Berrisford J, Bricogne G,等。宣布强制提交晶体沉积的PDBx/mmCIF格式文件到蛋白质数据库(PDB)。Acta crystallogica Sect D Struct Biol. 2019; 75:451-4。https://doi.org/10.1107/S2059798319004522

    中科院文章谷歌学术搜索

  8. 8.

    Berman HM, Kleywegt GJ, Nakamura H, Markley JL。蛋白质数据库档案作为一个开放的数据资源。J computer Aided Mol Des. 2014; 28:1009-14。https://doi.org/10.1007/s10822-014-9770-y

    中科院文章PubMed.公共医学中心谷歌学术搜索

  9. 9.

    威斯布鲁克法学博士,斯帕达奇尼N,布朗ID,伯恩斯坦HJ,麦克马洪B。晶体信息文件(CIF)规范。国际结晶学表格。英国切斯特:国际结晶学联合会;2006; 第20-36页。https://doi.org/10.1107/97809553602060000728

  10. 10

    STAR文件:电子数据传输和存档的新格式。化学学报1991;31:326-33。

    中科院文章谷歌学术搜索

  11. 11.

    Keller P.Partools。https://github.com/githubgphl/startools.

  12. 12.

    Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A,等。科学数据管理和管理的公平指导原则。科学数据。2016;3:160018。https://doi.org/10.1038/sdata.2016.18

    文章PubMed.公共医学中心谷歌学术搜索

  13. 13。

    霍尔姆L,拉克索LM。大理服务器更新。核酸Res. 2016;44:W351-5。https://doi.org/10.1093/nar/gkw357

    中科院文章PubMed.公共医学中心谷歌学术搜索

  14. 14。

    De Vries SJ,Van Dijk M,Bonvin Amjj。用于数据驱动的生物分子对接的Haddock Web服务器。NAT PROTOC。2010; 5:883-97。https://doi.org/10.1038/nprot.2010.32

    中科院文章PubMed.谷歌学术搜索

  15. 15。

    汉B,刘y,ginzinger sw,Wishart DS。ShiftX2:显着改善蛋白质化学换档预测。J Biomol NMR。2011; 50:43-57。https://doi.org/10.1007/s10858-011-9478-4

    中科院文章PubMed.公共医学中心谷歌学术搜索

  16. 16。

    阿南达克里希南河、阿吉拉尔河、奥努弗里耶夫河。H++3.0:为原子分子建模和模拟自动化pK预测和生物分子结构的制备。核酸研究,2012年;40:W537-41。https://doi.org/10.1093/nar/gks375

    中科院文章PubMed.公共医学中心谷歌学术搜索

  17. 17

    吴福星,杨杰福,梅立群,王福浩,杨国福。PIIMS服务器:用于蛋白质-蛋白质界面突变热点扫描的web服务器。J化学Inf模型。2021;61:14–20.https://doi.org/10.1021/acs.jcim.0c00966

    中科院文章PubMed.谷歌学术搜索

  18. 18

    Mulnae D,Koenig F,Gohlke H. Topsuite Web服务器:用于基于深度学习的蛋白质结构和质量预测的Meta-Suite。J Chem Inf模型。2021; 61:548-53。https://doi.org/10.1021/acs.jcim.0c01202

    中科院文章PubMed.谷歌学术搜索

  19. 19.

    等。统一的化学结构交叉参照和标识跟踪系统。J Cheminform。2013;5:3。https://doi.org/10.1186/1758-2946-5-3

    中科院文章PubMed.公共医学中心谷歌学术搜索

  20. 20.

    Velankar S,van Ginkel G,Alhroub Y,Battle GM,Berrisford JM,Conroy MJ等。PDBe:改进了PDB和EMDB大分子结构数据的可访问性。核酸研究,2016年;44:D385-95。https://doi.org/10.1093/nar/gkv1047

    中科院文章PubMed.谷歌学术搜索

  21. 21.

    Varadi M,Berrisford J,Deshpande M,Nair SS,Gutmanas A,Armstrong D,等。PDBe知识库:结构和功能注释的社区驱动资源。核酸研究,2020年;48:D344-53。https://doi.org/10.1093/nar/gkz853

    中科院文章谷歌学术搜索

  22. 22

    Wishart DS,Feunang YD,Guo AC,Lo EJ,Marcu A,Grant JR等。DrugBank 5.0:2018年DrugBank数据库的重大更新。核酸研究,2018;46:D1074-82。https://doi.org/10.1093/nar/gkx1037

    中科院文章PubMed.谷歌学术搜索

  23. 23。

    张海涛,张海涛,张海涛,等。bioython:用于计算分子生物学和生物信息学的免费Python工具。生物信息学。2009;25:1422-3。https://doi.org/10.1093/bioinformatics/btp163

    中科院文章PubMed.公共医学中心谷歌学术搜索

  24. 24。

    Westbrook J. MMCIF核心访问库。https://github.com/rcsb/py-mmcif

  25. 25。

    爱尔兰SM,马丁ACR。atomium——Python结构解析器。生物信息学。2020;36:2750–4.https://doi.org/10.1093/bioinformatics/btaa072

    中科院文章PubMed.公共医学中心谷歌学术搜索

下载参考

致谢

不适用。

资金

欧洲蛋白质数据库由欧洲分子生物学实验室 - 欧洲生物信息学院和惠康信托(104948)支持;开放访问收费的资金:EMBL。

作者信息

从属关系

作者

贡献

GVG开发了包,JMD,PK,SA和LP贡献给CodeBase和文档。LP,MV,SV写了这篇文章。所有作者都阅读并批准了稿件的最终版本。

相应的作者

对应到Sameer Velankar

伦理宣言

伦理批准和同意参与

不适用。

同意出版物

不适用。

利益争夺

作者声明他们没有相互竞争的利益。

额外的信息

出版说明

欧宝体育黑玩家Springer Nature在发表地图和机构附属机构中的司法管辖权索赔方面仍然是中立的。

补充资料

附加文件1

. 用例和代码示例。

权利和权限

开放访问本文根据创意公约归因于4.0国际许可证,这允许在任何中或格式中使用,共享,适应,分发和复制,只要您向原始作者和来源提供适当的信贷,提供了一个链接到Creative Commons许可证,并指出是否进行了更改。除非信用额度另有说明,否则本文中的图像或其他第三方材料包含在文章的创造性公共许可证中,除非信用额度另有说明。如果物品不包含在物品的创造性的公共许可证中,法定规定不允许您的预期用途或超过允许使用,您需要直接从版权所有者获得许可。要查看本许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/。Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本条中提供的数据,除非数据信用额度中另有规定。

再版和权限

关于这篇文章

通过CrossMark验证货币和真实性

引用这篇文章

范金克尔,G.,普拉夫达,L.,达纳,J.M。PDBeCIF:开源的mmCIF/CIF解析和处理包。欧宝娱乐合法吗22,383 (2021). https://doi.org/10.1186/s12859-021-04271-9

下载引用

关键词

  • 软件
  • 解析器
  • PDB
  • PDBx / mmCIF
  • 蛋白质结构
  • CCD
  • 小分子