跳过主要内容

用声音理解蛋白质序列数据:蛋白质序列和多序列比对的新声波化算法

抽象的

背景

使用声音来表示序列数据——超声波——作为视觉表示的替代和补充具有巨大的潜力,利用人类心理声学直觉的特征来更有效地传达细微差别。我们已经创建了五种参数映射声波化算法,旨在从蛋白质序列和小蛋白质多序列比对中改进知识发现。对于其中的两种算法,我们研究了它们在传递信息方面的有效性。为此,我们专注于用户体验的主观评估。这需要一个焦点小组会议和问卷调查研究的个人从事生物信息学研究。

结果

对于单一蛋白质序列,我们对传达特征进行传送功能​​的成功得到了调查和焦点组调查结果。对于蛋白质多个序列比较,证据证明有限的证据表明Sonation成功地传达了信息。需要额外的工作来识别有效算法,以呈现对研究人员有用的多个序列对准声音。我们的调查和焦点小组的反馈表明,未来对多个对齐的索音的未来方向:动画可视化,指示在SON处理的多个对齐中的柱子中的列,用户控制序列导航和声音参数的自定义。

结论

在这项工作中采用的声波化方法在从蛋白质序列数据传递信息方面显示了一些成功。反馈指出了在本文概述的超声化方法基础上的未来发展方向。在这项工作中实施的有效性评估过程证明是有用的,根据最终用户的投入提供了详细的反馈和关键的改进方法。以类似的用户体验为重点的有效性评估也可以帮助生物信息学的其他领域,例如可视化。

同行评审报告

背景

用声音来代表数据,利用我们的心理声学直觉的特点,在科学研究中有着悠久的历史。伽利略利用人类固有的拍子感来测量球沿斜面向下的加速度[1].汉斯·盖格和沃尔特·穆勒发明了一种计数器,可以监测当地的辐射水平,而不需要检查刻度盘。2].当代广告研究指出,当我们支付不受关注时,无线电广告可以保持有效[3.].

声波化是现代术语,指的是使用非语言的声音来传达信息[4].在实践中,Sonefication增加了数据可视化方法,包括声音,可以使用而不是视觉信息。与许多静态可视化不同,包括声音的任何显示必然包括时间方面。参数映射SONOFICATION(PMSON)将数据特征映射到声音合成参数,例如通过心率监测器的蜂鸣声的音调监测患者的氧饱和[5].PMSONS可以利用声音的多维性质来传达多变量数据,但是各种映射可能性造成一致性和可理解性的挑战。找到直观,愉快和精确的声音之间的平衡是PMSON设计的关键[6].

一个年代new technologies (e.g., single-cell or single-molecule DNA sequencing) produce genomic and proteomic data of rapidly increasing volume and complexity, the adoption of automated analysis methods (e.g., clustering, modelling, machine learning) within the life sciences is increasing. These automated analyses are not sufficient for knowledge discovery alone, and domain experts must inspect data to corroborate analyses. Data visualisation is the key method through which experts inspect their data. With increases in data, further innovations are needed in visualisation methods [7].多个序列对准(MSAS)是生物数据的一个例子,其中表示的新方法可能是有前途的。MSA是由一组生物序列创建的矩阵,例如蛋白质。通过间隙插入修改序列以产生多向,高分对准。生物学家使用MSA来预测蛋白质结构的各个方面并鉴定蛋白质结构域;推断序列同源性和进化关系;辨别蛋白质障碍,功能和本地化;了解基因组重排;并估计进化率[8].

MSA可视化软件包是生命科学家的重要工具,然而MSA可视化由于氨基酸的复杂性质,通常最终被过载[9].这种复杂性通常通过颜色表现出来,这可能是不包括的,因为大约5%的人是色盲[10.].一般来说,科学严重依赖视觉资源,盲人/部分视力的学生无法获得这些资源,除非以另一种形式呈现[11.].即使是视力正常的非色盲用户,数据量也可能太多,无法显示在屏幕上,导航可能会很混乱。

先前的研究已经证明,分子信息可以被声学化,得到积极的结果[12.],具体成功证明DNA和蛋白质序列数据[13.14.]及3D蛋白质结构[15.].我们认为,参数映射超声可用于改善MSA可视化,满足蛋白质序列可视化创新的需要,并为科学传播创造高质量的低成本内容。

我们的目标是利用人类心理声学直觉的多样性和力量来解决蛋白质组学问题。本文提出了五种用声音表示蛋白质序列数据的声波化算法。这些算法创造了代表单个蛋白质序列或蛋白质mas的sonics。我们通过问卷调查和焦点小组,通过最终用户评估算法作为解决生物信息学启发任务的辅助来评估这些算法在传递信息方面的有效性。

方法

两种硬件用于生成sonification:一台运行Scientific Linux 7.6(氮气)发行版的桌面计算机,其Linux内核版本为3.10.0 -957.12.1.el7。并且,由于Sonic Pi在Scientific linux上不受支持,因此运行了Raspberry Pi的4273pi变体的1.5版的Raspberry Pi [16.].

使用Perl (v5.16.3)和Sonic Pi (v3.1.0)。数据的流程如图所示。1结果如下:

  1. 1。

    输入:Fasta格式的序列。

  2. 2。

    在Linux桌面上使用Perl:从序列生成Sonic PI代码。

  3. 3.

    在树莓派上使用Sonic Pi:从代码中生成声音。

  4. 4.

    输出:声音文件。

图。1
图1

声音算法的设计过程和数据流的例证。每种算法(I-V)由图中的中心的不同路径表示,将数据特征连接到用于表示其的声音合成参数。通过在Linux机器上的Perl算法,通过覆盆子PI机器上的Perl算法,从FastA文件输入流到FastA文件输入,然后通过覆盆子PI机器上的Sonic PI。这个例证的灵感来自[6](他们的图15.1)还包括数据特征和声音合成之间的分裂

通过构建和修改一个Perl脚本,编写sonify DNA [17.],我们开发了五种参数映射声波化算法(算法I-V)。算法脚本可以在我们的GitHub存储库中找到[18.],并在网上的补充资料中存档[19.].

每一种算法都将氨基酸在蛋白质序列或MSA中的位置映射到时间,创造出隐喻根据你的年龄和背景,可以选择活页乐谱或打印纸、留声机或黑胶唱片、盒式磁带或dat磁带、cd或迷你唱片、音乐盒或自动钢琴播放器。这些隐喻影响了我们的声音设计。

我们设置了合成器的信封攻击参数为零,给予立即的注意开始,并创造一个有规律的跳动脉冲的感觉在声波。我们使用不同的合成器来区分输入数据类型,使用正弦蛋白质序列声学合成(算法I和算法II)和看到(算法IV和算法V)。算法III使用多个合成器,所以没有遵循这个模式。所有合成器的选择都是为了快速准确地传达音高,同时保持我们所寻求的音频隐喻,让耳朵感到愉悦。

我们的算法都使用MIDI数字来表示音调,就像在Sonic Pi中使用的那样。MIDI数字是一个整数,通常在0到127之间,每个数字代表西方调性音乐中的半音符音高。用于实时发送音乐控制的MIDI语言是行业标准[20.].

算法一:蛋白质序列疏水性

为了超声处理单一的蛋白质序列,这种超声处理将20个氨基酸基于疏水性将20个氨基酸映射到20个Midi间距,灵感来自Hayashi和Munakata的工作[21.].与他们的方法不同的是,我们使用更小的音高范围来帮助听者进行模式识别,并从Goldman, Engelman, and Steitz (GES)疏水性量表中获得我们的相对音高,该量表有实验基础,采用半理论方法。GES基于α-螺旋残基的能量考虑[22.].GES代表得分疏水性。因此,氨基酸线性地排序。

通过从疏水到亲水的GES排序,我们开始将最疏水的残基苯丙氨酸映射到MIDI数字50。顺序中每个随后的残基分配一个MIDI数,等于前面氨基酸的MIDI数加上两个氨基酸之间GES分数的增量。这是四舍五入到最接近的整数,以给出一个MIDI数字,并确保一个一对一的映射。这个映射在表中有详细说明1和无花果。2

figurea
表1利用GES评分从氨基酸到MIDI音高数的映射[22.
图2
figure2

乐谱细节我们的疏水性的规模根据表中的数据发展而来1.这种氨基酸到音高的映射在算法I、III和V中使用

算法二:蛋白质序列简化字母表

在这里,我们采用了一种不同的方法来实现单个蛋白质序列的超声波化。它的灵感来自金和安格斯的作品[23.],其算法使用减少的字母表以简化20个氨基酸,以包括四个字母组成的表示。在我们的算法中,还原字母表的每个字母代表了一组具有相似疏水性的氨基酸[24.].我们给每个组分配了音高,并给他们分配了一个MIDI音高,对应于C大调五声音阶的前四个音符。他们的分组如下:FILVWY MIDI音高67,ACGMP MIDI音高64,KQST MIDI音高62,DEHNR MIDI音高60。

算法三:蛋白质序列疏水性和简化字母表

为了结合算法I的细节和算法II的更广泛的分辨率来确定单个蛋白质序列,我们将这两种方法结合起来。我们使用了表中详细说明的算法I的基于GES比例尺的映射1和无花果。2确定音高。我们通过使用不同的算法II并入算法II仪器在索尼克Pi中为每个简化的字母组。合成器的分配如下钢琴;ACGMP来正弦;KQST到摘下;和DEHNRtb303

figureb

算法IV:MSA熵

我们对MSA Sonification的第一种方法涉及更高的级别信息,从Promuse软件系统中获取一些灵感[15.].我们的算法给出了单声道输出,每个音符表示MSA的一列。音符的间距表示MSA内相应位置处的蛋白质的守恒水平,柱中的多样性给出更高的间距。因此,更高的音调区域意味着较少的保守,反之亦然。我们通过计算Shannon熵测量MSA内的每列的各种,其中更高的熵对应于更多柱状品种[25.].

H,香农熵为-th列,定义为:

$ $ H_{我}= - \ mathop \总和\ limits_ {J} p_ {jk} \ log_{2} \离开({p_ {jk}} \右)$ $

在哪里在J k \ (j_ {} \ \)k独特的氨基酸符号(包括差距' - ')存在于此th列,

$p_{jk} = {frac{{\tilde{j}_{k}}{n}$

在哪里\ \(波浪号{j} _ {k} \)是计数\ (j_ {k} \)th列,n为MSA中蛋白质的数量。

这将为MSA的每一列输出单个值。为了将这些映射到MIDI数字,我们使用了所有列熵值集的z-score标准化。然后我们将其缩放到MIDI范围0-127内的可监听范围,并使用下限值来给出一个整数。输出数据集\ (H ^ {*} \)MIDI编号由转换的数据点组成\(h_ {i} ^ {*} \)这样:

$ $ H_{我}^{*}= \压裂{{H_{我}- \眉题{H}}} {{s_ {H}}} \ cdot \, 10 + 60 $ $

在哪里H数据点是否在转换中,并且\(\ ovline {h} \)年代H是所有列熵组的均值和标准偏差(通过N-1分割)H.添加60表示间距将居中在中间C(MIDI号60)周围,并且缩放为10创造了备忘录的备忘。这两个数字基于个人偏好。

figurec

算法V:MSA Hydophicity

此方法同时超声对输入MSA的每行,使用算法I中描述的映射,详细说明1和无花果。2.属性创建一个复音输出看到合成器。如果在多排中相同位置存在相同的残差,则相应音高的音符的音量增大。排列中的间隙不健全。例如,在大多数序列中,大声的单个音符代表一致,而安静的单个音符代表一个空白。这与算法I在几个方面形成了对比:输出是复调的,而不是看到合成器被用来代替正弦它以MSA作为输入,而不是单一的蛋白质序列,体积的变化表示在MSA中该位置有多少序列具有相同的残基。

算

例子sonifications

所有五种算法的例子都可以在https://sonifyed.com/bmc-bioinformatics-2021

蛋白质超声化(算法I、II和III)的例子包括跨膜蛋白、球状蛋白和无序蛋白,以及含有氨基酸重复序列(AAR)的蛋白。MSA超声(算法IV和V)的例子比较胰岛素和甘油醛3-磷酸脱氢酶的缺口和紧凑排列。缺口和紧凑的MSAs使用相同的输入序列和MUSCLE v3.8.31 [26.].一个gapopen对紧凑型MSAs的惩罚为- 3,对缺口型MSAs的惩罚为+ 1。

评估有效性

评估超声算法的有效性的方法专注于生物信息学研究人员的用户体验 - 技术的目标最终用户。它主要是定性和植根于主观现象学判断。它由一个在线问卷和焦点组会议组成。

招聘参与者

参与者是通过苏格兰生物信息学研究人员的三个邮件列表招募的:Ashworth生物信息学俱乐部(工作人员和研究生,重点是在爱丁堡大学的一栋建筑中工作的人,爱丁堡的生物信息学(爱丁堡和苏格兰东南部研究机构的工作人员和研究生)NextGenBUG(苏格兰的专业人士)。

这些邮件列表中的抽样是非随机的。感兴趣的表达是有助于纳入样本的关键因素——每个表示感兴趣的人都被纳入。所有受访者都自我确认,他们符合我们的先进生物学知识标准。

问卷调查

该问卷以算法I和算法v为中心,允许对单个蛋白质超声化和MSA超声化进行评估,同时保持参与者的认知负荷较低,以确保响应质量。参与者使用sonification作为工具完成任务。问卷的PDF可于本署网页(https://sonifyed.com/bmc-bioinformatics-2021),通过GitHub [18.],并已存档于我们的补充资料[19.].与调查中使用的在线表单相比,我们用公开的链接替换了密码保护的URL的声音文件,使读者可以自动尝试(虽然我们不再收集数据)。

任务1

氨基酸重复序列(AARs)是蛋白质中氨基酸的重复序列。它们在蛋白质的功能和进化中具有特殊的作用,但是人们对它们的了解很少,识别它们也很困难,因为不可能定义一个统一的标准来检测和验证各种重复模式[27.].

在第一项任务中,要求参与者使用使用算法产生的声音鉴定氨基酸重复。它是八个字母长,并在串联中重复四次。整个蛋白质序列具有长度253.参与者被告知蛋白质含有“短(<20字母)氨基酸基序或单词重复四次”。它们也被提供的蛋白质序列的基本可视化,以来自MView所拍摄的图像的形式[28.,没有使用配色方案。

任务2

蛋白质结构域在蛋白质中是不同的单位。它们通常对特定功能或互动负责。同一域可以在许多不同的蛋白质中找到,并且通常在每个不同的蛋白质中执行相同的功能。MSA是用于识别和评估蛋白质域保护的最广泛使用的方法之一[29.].

在第二个任务中,要求参与者在使用算法V创造的五种蛋白质序列的MSA的SONA的经文中识别三个保守域。用于创建MSA的所有蛋白质序列包含SH3_1保守域的两个示例和一个示例SH2保守域(PF00018和PF00017)。参与者被告知“这个MSA包含三个保守的域名(<50字母)”,并任务识别它们。它们也被提供有来自MVIVIVE的图像形式的可视化,没有颜色方案。

反应

在尝试每项任务之后,将参与者与用鲜艳的杆(在多序列对准的情况下的亮色杆(在多序列对准的情况下,与多个取向中的氨基酸有亮起的序列或多次对准。问了以下三个问题

  1. 1。

    “声波化文件是否帮助您识别{重复motif}/{保守域}?”,回答“是/不是”。

  2. 2。

    “关于Sonofication的最佳事情是什么?” - 具有免费文本响应。

  3. 3.

    “关于Sonofication的最糟糕的事情是什么?” - 具有免费文本响应。

工作负载

我们使用NASA任务负荷指数(TLX)来评估难度较大的第二个任务的主观心理负荷。它是一种主观的、多维的、定量的评估工具,用于评估任务的感知工作量[30.].独立研究人员已经证明了TLX的可靠性和有效性[3132]及其在文献中的频繁使用[33].

工作负载分为六个子标度:挫折,努力,(自身)性能,时间需求,身体需求和心理需求。参与者从0(低)到100(高)和它们的分数速率速率舍入到最近的五个单位。然后,参与者将在每对六个子级别之间进行二进制选择,并要求挑选哪一个对任务的工作量贡献最多。这些十五个二元选择与六个额定值相结合,得到了加权分数。

焦点小组

我们的焦点小组有五名与会者,外加一名主持人。对算法I到算法V进行分组。参与者被给予打印的蛋白质/MSAs的MView可视化副本,没有配色方案。音频被记录和转录。

一个scissor-and-sort采用焦点小组文本内容分析方法,该方法高效、快速、经济[34].我们开发了一个分为五个部分的分类系统:审美判断、项目判断、分析判断、心理声学判断和对未来工作的建议。然后,我们为每个主题选择了具有代表性的陈述,并创建了对其含义的解释。

结果

问卷调查

我们的调查问卷吸引了五个参与者。这与其他索音研究中的这种高度专业化的问卷内容的回归率相当[353637].我们对问卷的解释主要是基于定性分析而不是定量分析。因此,我们目前工作的问卷调查结果在性质和范围上与焦点小组相似。

所有参与者都报告了对生物序列数据的高水平经验(博士后研究或以上)。这些答复者的专门知识使我们相信,他们的反馈对就我们的声纳效应得出结论是有用的和有关的。他们的音乐经验从没有到大学水平(2到4年),这减轻了模糊的影响训练有素的耳朵或者是我们评价的伟大的音乐专长。

任务1

对于第一个关于算法I的任务,所有参与者都认为超声化有助于找到AAR。当被问及声音化的最大好处是什么时,参与者回答说,声音化“使重复的模式变得明显”,而且“从重复的声音中更容易注意到重复的序列,而不是从盯着看的字母中”。当被问及最糟糕的事情时,参与者抱怨说缺乏“一种轻松浏览声音文件的方法”,而且“很难将重复声音的位置映射到实际序列中”。他们还指出,与看顺序相比,“听需要一段时间”。

任务2

为了响应算法V的第二个任务,所有参与者都不同意,声音有助于他们识别保守的域。当被问及关于SONORIPION的最佳事情时,他们回答说,SONEDION“在对齐中的差距明显”,是一种“代表数据的互补方式”,“确实帮助我识别第三领域”,这是“广泛的”可以通过关注体积来识别更多保守的区域“。为了回应Sonofify的最糟糕的事情,参与者回应了“听到”,“难以听到保守的区域”,“很难在序列中跟踪我的位置是非常不愉快的”。

参与者的NASA-TLX评分来自第二个任务(表2)显示参与者的考虑心理需求,努力,挫折是影响这项任务工作量的最重要因素。物理需求被认为是对任务工作量的最小贡献。与780多个已发表的TLX结果相比,该任务的总体工作量得分位于第6十分位数[33].

表2 NASA任务负载索引(TLX)由调查问卷的任务2产生,由五个响应组成

焦点小组

焦点集团由两名博士后研究人员和三位博士学位研究人员组成。他们来自三个不同的国家(欧洲和北美),具有三种不同的第一语言(所有印度欧洲)。这种焦点组大小适合促进深入讨论[34].

各算法的代表性陈述可在补充材料中找到[19.].

项目的判断

焦点小组整体上对项目肯定了。“我认为与您的项目有关,您还需要思考是否有可能,因为您证明它是,但您是否可以与现在使用的内容进行竞争”。参与者对视障科学家的方法的效用非常积极,尽管所有人都被完全瞄准了。参与者经常讨论了一种特定的方法,例如算法II中的减少的字母表是一个好主意,但在每种情况下可能都不有用。他们认为这种方法的主要用途是作为他们的数据的初始“过滤方式”。

心理声学的判断

焦点小组很容易就掌握了所有算法的音频隐喻,除了算法III,在算法III中,他们发现不同乐器的概念对应于字母表中的每个字母,打乱了他们对音高-疏水性隐喻的理解。参与者表示,他们可以通过声音“识别当前发生了什么”,但过不了多久就记不住了。参与者发现,他们对声音的哪些方面最突出有不同的看法。

对今后工作的建议

由于研究问题的多样性,参与者想要定制:声音的极性(即高音调是否对应于高或低疏水性),这种可视化的速度,声音文件中的导航,声音的分类步骤大小,仪器,减少字母的使用。他们还想在声音化的同时用视觉表现位置,一位参与者甚至建议使用“卡拉ok那样的球”。

审美判决

不同的审美反应反映了焦点小组的热情——“混乱,但不是完全混乱”和“比预期的更多样化”。参与者直接将其与“恐怖电影”的音乐进行了比较,特别是约翰·卡朋特的音乐。一名参与者俏皮地说“容易听的蛋白质”。算法V引发了最强烈的反应,被描述为“最奇怪的声音”,“不符合音乐的正常结构”,“就像一个敲打音符的人”。所有这些之后,对声音有了更深入和积极的回应。

分析判决

当听到使用算法I制作的声音时,所有的参与者都认为他们“真的能听到”。算法I是问卷中的第一个任务。他们从事的是有声化社会学家亚历山德拉·Supper所说的sonification卡拉ok通过唱出他们听到的相关的东西[38].这传达了参与者对方法的热情和听到主题时的兴奋。

针对使用算法II产生的简化字母音高,焦点小组发现很难区分狭窄的音高范围。

算法III使用仪器来表示减少的字母映射,而音高仍然映射到疏水性尺度。与会者同意,不同的仪器非常清楚地传达了不同的减少的字母组,但听到仪器内的音高差异更加困难。该组令人减少的字母表意味着简化听众的声音,而是包括疏水性间距未显示简化。

参与者认为,高阶熵同化算法IV使得“很容易分辨高度保守区域和非高度保守区域”。然而,参与者也一致认为,理解这些区域之间的声音并不容易。

参与者发现算法V产生的声波比其他算法更不清晰。他们一致认为,使用声波作为唯一的信息来源是困难的,如果没有位置指示或视觉伴奏,他们无法说出他们正在听什么。参与者表示,他们可以利用这个“只是得到一个初步的想法”。

讨论

参与者希望定制的超声处理算法,因此他们可以根据不同的任务定制实现。通常对特定任务的每种算法的正反馈,并且没有被认为是在他们自己的各种任务中有用的。自定义还允许用户定制对自己的心理声学判断的声音,将突出特征与他们发现最突出的声音的各个方面相关联。

用户对序列导航的控制是另一个值得改进的地方。增加的用户控制应该减少挫折它是NASA TLX任务工作量中较大的贡献者之一。

动画可视化被推荐给用户一个清晰的位置的序列或MSA在超声过程中。这将减少精神的需求美国国家航空航天局TLX评估认为,这项任务对工作量的贡献最大,损害了有视力障碍的科学家的申请。

网络托管工具的开发将促进可视化、定制和用户控制方面的改进。

动画和视频对于传播日益复杂的科学思想、改善对等交流和激发公众参与非常重要[39].然而,制作高质量的视听内容需要大量的时间和精力[7].超声化算法可以轻松地创造出引人注目的、科学准确的材料,减少了生产成本。我们的反馈显示了在公众参与和科学传播领域对超声化的热情。为分析目的而开发的方法可以用于公众参与目的,改进的声音设计将使声学更美观。不同的声音设计可能适合不同的媒体,如现场活动、播客/广播制作和科学视频制作。

在目前的工作中,我们使用一个小的MSA来研究算法IV和算法v。虽然这对于开发和评估目的是方便的,但任何有用的MSA超声必须能够超声更大的MSA。我们在项目中使用了Sonic Pi软件,并将其推荐给任何想要尝试Sonic化的人。我们在这个项目中使用了Sonic Pi,延续了之前的工作[17.].此前的工作利用了Sonic PI的低努力声音设计,易用性,交互性和乐趣,以供公众参与目的。但是,Sonic PI不适合大量数据。该项目中的未来软件应利用MIDI协议在内部合成声音,从而为大量数据提供迎合,允许更复杂的声音设计,并通过用户去除手动步骤的电流需求。这将使更好,更用户友好的软件。

采用概览/详细的方法处理复杂的视觉效果,将有助缩短声波化的时间[7].这种动态方法将通过允许用户将注意力集中到他们感兴趣的特定区域的更高复杂性来处理复杂性问题,同时也允许对该区域的背景进行更大规模的调查。

利用现有序列观看者的索音方法的集成可以为可视化提供基础,并已被建议作为蛋白质序列声学的未来路径[13.].一方面,使用现有的可视化工具可能会阻碍技术对视障人士的研究人员的好处。另一方面,这种方法可以改善对视觉受损的研究人员的可视化工具的可访问性。

虽然我们的研究样本量较小,但足以提出未来的研究方向。我们发现审美判断和心理声学判断在我们的焦点小组中并不一致。背景的多样性可能是其中的一个因素。采取实用主义的美学方法,我们接受经验不会是普遍的,但我们必须以一种最大化与我们的sonalization有意义的对话的方式来设计[40].然而,采纳这样的格言:“如果良好的可用性工程的关键是评估,那么良好的美学交互设计的关键是理解用户如何理解人工制品,以及他/她如何在情感、感官和智力水平上与它进行交互”[41]我们建议我们的有效性评估过程尝试评估的目标和理解用户对Sonofication的响应。一旦提出的研究所建议的改进,已经实施,具有较大样本大小的定性和定量分析可能特别有价值[42].

我们的研究处理了在每个序列的每个位置都有特定残差的序列。在实践中,序列数据可视化所面临的问题包括处理误差和不确定性,以及变体分析[7].这是未来超声化研究与序列可视化并行的可能性。这里,声音特征,如音调和粗糙度,可用来表示给定残差的不确定性。这可以在当前工作之外加以实施。

我们的有效性评估提出了清楚地改善了用户可以与声音互动的方式。通过调查用户体验对软件效力的评估长期以来一直是商业软件开发的关键[43但一般不包括在生物信息学可视化软件的出版物中。例如,我们发现关于单个软件工具(如Tablet(下一代测序数据查看器))的文章中没有提到有效性或可用性评估过程[44],Artemis(高吞吐量测序可视化工具)[45],以及Aliview (MSA浏览器)[46].我们发现同样的缺席在审查论文中,例如2010年对M欧宝娱乐手机平台下载SAS,文学和基因家族演化的可视化审查[9, 2020年人类结构变化可视化工具综述[47],以及许多基因组浏览器的评论[484950].特别是现在有大量的msa可视化软件包和许多其他种类的生物数据,我们推荐这样的评估。这将使我们更容易理解可视化工具的有效性,并将它们相互比较,并将声波化作为一种补充或替代方法。

在Sonofication领域内,研究通常集中在超声处理数据的技术上,而不是对所经济数据的内容和解释进行了影响[51].定性研究方法可以通过使用最终用户的现象学进入评估超声处理技术的成功(在这种情况下,在这种情况下,在这种情况下的生物信息管理员),以设计过程中使用的背景为中心。

我们还进行了定量分析。虽然评估新的数据探索方法是困难的,因为洞察力不能以一种完美的令人满意的方式量化,但NASA TLX实施简单,成本效益高,并有30年的研究和应用背后[52].这六个子量表提供了一种语言来清晰地表达任务难度的细微差别。

该项目的未来工作可能导致对具有视觉损伤的科学家有用的工具。虽然没有视力障碍的人的反馈可能无法为这一技术提供这种技术的潜力,但实验表明,在视力,盲和视力受损人物之间对声音极性的看法是类似的53].这表明,就知觉而言,在有视力的参与者身上取得的成功可能是可转移的。未来的有效性评估应该包括有视力障碍的科学家,以确定该方法的效用。

蛋白质序列数据声学化的潜力是显而易见的,人类心理声学直觉和对该方法的潜在热情这两个未被开发的源泉很好地维持和培育了该领域,因为它继续发展。如果音乐是创新科学研究的食粮,那就继续演奏吧。

结论

对于单一的蛋白质序列,我们在传达特定特征方面的声波化的成功得到了调查和研究小组的支持。焦点小组对这种方法表现出了极大的热情。

有更多有限的证据表明,多序列比对声波化成功地传递了信息,更高水平的声波化比更细粒度的声波化更成功。总的来说,数据的复杂性导致了单一的、不可配置的超声化在不支持可视化的情况下的困难。为了使这些声波化对研究人员有用,还需要做更多的工作。

以生物信息学家为中心的定性反馈过程(即超声化的最终用户)提供了高质量的、情境化的、具体的改进技术的建议。关键教训是共同改善MSA和单一蛋白序列的超声波化。

数据和材料的可用性

网站的例子,https://sonifyed.com/bmc-bioinformatics-2021.代码的GitHub存储库https://doi.org/10.5281/zenodo.4683746.支持本文结论的数据集和Perl脚本可以在爱丁堡大学的DataShare存储库中找到https://doi.org/10.7488/ds/3023.操作系统:平台独立。编程语言:Perl (v5.16.3)和Sonic Pi (v3.1.0)。许可证:在MIT许可证下发布的Sonic pi -开源项目,Perl-GNU通用公共许可证。

缩写

AAR:

氨基酸重复

电气:

Goldman, Engelman和Steitz的疏水性量表

MIDI:

乐器数字接口

MSA:

多序列比对

美国国家航空航天局:

美国国家航空航天局

PMSon:

参数映射超声处理

及:

任务负载索引

参考文献

  1. 1。

    音乐在伽利略实验中的作用。Sci。1975;232(6):98 - 105。https://www.jstor.org/stable/24949824

    文章谷歌学术

  2. 2。

    盖格H, Müller W. Elektronenzählrohr zur Messung schwächster Aktivitäten。《自然科学》杂志上。1928;16(31):617 - 8。https://doi.org/10.1007/BF01494093.

    中科院文章谷歌学术

  3. 3.

    Lang A,Chrzan J. Media Multitasting:好,坏或丑陋?Ann int Commenc Assoc。2015; 39(1):99-128。https://doi.org/10.1080/23808985.2015.11679173

    文章谷歌学术

  4. 4.

    Kramer G, Walker B, Bonebright T, Cook P, Flowers J, Miner N, Neuhoff J. Sonification报告:领域现状和研究议程。Fac Publ Dep Psychol 1999。http://digitalcommons.unl.edu/psychfacpub/444

  5. 5.

    脉搏血氧计的新型听觉显示设计与评估。在:国际社会用于听觉显示;2019.335 - 8页。http://hdl.handle.net/1853/61532

  6. 6.

    Grond F,Berger J.参数映射超声处理。在:Hermann T, Hunt A, Neuhoff JG,编辑。这种手册。第1版柏林:Logos Verlag;2011. p。363-97。https://pub.uni-bielefeld.de/record/2935185

    谷歌学术

  7. 7.

    O'Donoghue Si,Baldi BF,Clark SJ,Darling Ae,Hogan JM,Kaur S等人。可视化生物医学数据。Annu Rev Biomed数据SCI。2018; 1(1):275-304。https://doi.org/10.1146/annurev-biodatasci-080917-013424

    文章谷歌学术

  8. 8.

    Yachdav G,Wilzbach S,Rauscher B,Sheridan R,Sillitoe I,Procter J,等。MSaviewer:多个序列对齐的交互式JavaScript可视化。生物信息学。2016; 32(22):3501-3。https://doi.org/10.1093/bioinformatics/btw474

    中科院文章PubMedp谷歌学术

  9. 9。

    Procter JB,Thompson J,Leatunic I,Creevey C,Jossinet F,Barton GJ。可视化多次对齐,文学和基因家族演化。NAT方法。2010; 7(3):S16-S25。https://doi.org/10.1038/nmeth.1434

    中科院文章PubMed谷歌学术

  10. 10。

    黄b色盲。Nat方法。2011;8:441。https://doi.org/10.1038/nmeth.1618

    中科院文章谷歌学术

  11. 11。

    对盲人和部分视力学生的STEM学科教学:文献综述和资源。RNIB Cent Access Inf (CAI)伯明翰文学Rev 2013 [cited 2020 Apr 28]。https://rnib.org.uk/sites/default/files/2013_05_Teaching_STEM.docx

  12. 12.

    听觉显示辅助分子信息理解的综述。交互第一版。2006;18(4):853 - 68。https://doi.org/10.1016/j.intcom.2005.12.001

    文章谷歌学术

  13. 13。

    寺庙MD。用于DNA序列分析的听觉显示工具。欧宝娱乐合法吗BMC生物信息学。2017; 18(1):221。https://doi.org/10.1186/s12859-017-1632-x.

    中科院文章PubMedp谷歌学术

  14. 14.

    坦普尔医学博士:冠状病毒基因组的实时音频和视觉显示。欧宝娱乐合法吗BMC生物信息学。2020;21(1):431。https://doi.org/10.1186/s12859-020-03760-7

    中科院文章PubMedp谷歌学术

  15. 15.

    Bywater RP, Middleton JN。旋律识别和蛋白质折叠分类。Heliyon。2016;2 (10):e00175。https://doi.org/10.1016/j.heliyon.2016.e00175

    文章PubMedp谷歌学术

  16. 16.

    Barker D,Ferrier de,Holland PW,Mitchell JB,Plaisier H,Ritchie Mg等。4273π:低成本臂硬件的生物信息学教育。欧宝娱乐合法吗BMC生物信息学。2013; 14(1):243。https://doi.org/10.1186/1471-2105-14-243

    文章PubMedp谷歌学术

  17. 17.

    D.生物信息学中公众参与的DNA声波分析。BMC Res Notes. 2021;14:273。https://doi.org/10.1186/s13104-021-05685-7

    中科院文章PubMedp谷歌学术

  18. 18.

    马丁EJ。Protein_Sound[网络]。GitHub;2021.https://doi.org/10.5281/zenodo.4683746

  19. 19。

    Martin EJ,Meagher T,Barker D.“使用声音理解蛋白质序列数据的附加文件:蛋白质序列和多个序列比对的新超声算法”[Internet]。2021 [引用2021年2月8]。https://doi.org/10.7488/ds/3023

  20. 20。

    Moog RA。MIDI:乐器数字接口。[J] .中国音频工程。1986;34(5):394-404。http://www.aes.org/e-lib/browse.cfm?elib=5267

    谷歌学术

  21. 21。

    MUNAKATA N,Hayashi K.基因音乐:碱基和氨基酸的音调分配。在:ketover ca,编辑器。可视化生物信息。新加坡:世界科学;1995. p。72-83。https://doi.org/10.1142/9789812832054_0008

    谷歌学术

  22. 22。

    膜蛋白氨基酸序列中非极性转双分子层螺旋结构的鉴定。生物物理学报。1986;15(1):321-53。https://doi.org/10.1146/annurev.bb.15.060186.001541

    中科院文章PubMed谷歌学术

  23. 23。

    国王RD,安格斯CG。PM-Protein音乐。计算机应用生物学。1996;12(3):251-2。https://doi.org/10.1093/bioinformatics/12.3.251

    中科院文章谷歌学术

  24. 24。

    天气EA, Paulaitis ME, Woolf TB, Hoh JH。还原氨基酸字母足以准确识别内在紊乱的蛋白质。2月。2004;576(3):348 - 52。https://doi.org/10.1016/j.febslet.2004.09.036

    中科院文章PubMed谷歌学术

  25. 25。

    香农CE。交流的数学理论北京科技大学学报(自然科学版);https://doi.org/10.1002/j.1538-7305.1948.tb01338.x

    文章谷歌学术

  26. 26.

    埃德加钢筋混凝土。肌肉:一种减少时间和空间复杂度的多序列比对方法。BMC Bioinform。2004;5(1):113。https://doi.org/10.1186/1471-2105-5-113

    中科院文章谷歌学术

  27. 27.

    关键词:氨基酸重复序列;短暂的Bioinform。2014;15(4):582 - 91。https://doi.org/10.1093/bib/bbt003

    中科院文章PubMedp谷歌学术

  28. 28.

    MView:一个web兼容的数据库搜索或多对齐查看器。生物信息学。1998;14(4):380 - 1。https://doi.org/10.1093/bioinformatics/14.4.380

    中科院文章PubMed谷歌学术

  29. 29.

    Jankun-Kelly TJ,Lindeman Ad,Bridges Sm。多序列校准上保守域的探索性视觉分析。BMC生物素。2009; 10(41):S7。https://doi.org/10.1186/1471-2105-10-S11-S7

    中科院文章谷歌学术

  30. 30。

    哈特得分,斯塔夫兰。NASA-TLX (Task Load Index)的发展:实证和理论研究的结果。难以Psychol。1988;52:139 - 83。https://doi.org/10.1016/s0166-4115(08)62386-9

    文章谷歌学术

  31. 31。

    Byers JC, Bittner AC, Hill SG, Zaklad AL, Christ RE,远程驾驶车辆(RPV)系统的工作量评估。acta physica sinica, 1988;32(17): 1145-9。https://doi.org/10.1177/154193128803201704

    文章谷歌学术

  32. 32。

    Bittner AC, Byers JC, Hill SG, Zaklad AL, Christ RE,机动防空系统(LOS-F-H)的一般工作量评级。acta photonica sinica . 1989;33(20): 1476-80。https://doi.org/10.1177/154193128903302026

    文章谷歌学术

  33. 33。

    格里尔RA。多高才算高?NASA-TLX全球工作量评分的元分析。acta photonica sinica . 2015;59(1): 1727-31。https://doi.org/10.1177/1541931215591373

    文章谷歌学术

  34. 34。

    Stewart DW, Shamdasani PN。焦点小组 :理论与实践。第三版剑桥:SAGE出版物;2014.

    谷歌学术

  35. 35。

    基于多层次互动音响化的具身音乐认知方法。[J] .计算机工程与应用。2012;https://doi.org/10.1007/s12193-011-0084-2

    文章谷歌学术

  36. 36。

    关键词:视障导航辅助设备,U-depth图像,交互声波化J Multimodal User Interfaces. 2019;https://doi.org/10.1007/S12193-018-0281-3

    文章谷歌学术

  37. 37。

    关键词:声反馈训练,滑桨运动,声学训练体育科学。2015;33(4):411-8。https://doi.org/10.1080 / 02640414.2014.946438

    文章PubMed谷歌学术

  38. 38.

    晚餐A.为耳朵游说,用全身倾听:音响化的(反)视觉文化。声音的研究。2016;2(1):69 - 80。https://doi.org/10.1080/20551940.2016.1214446

    文章谷歌学术

  39. 39.

    Johnson Gt,Hertig S.了解分析和生物分子结构数据的沟通指南。NAT Rev Mol Cell Biol。2014; 15:690-8。https://doi.org/10.1038/nrm3874

    中科院文章PubMed谷歌学术

  40. 40.

    声化设计与美学。在:Hermann T, Hunt A, Neuhoff JG,编辑。这种手册。第1版柏林:Logos Verlag;2011. p。14.5–64.http://nrl.northumbria.ac.uk/id/eprint/24597

    谷歌学术

  41. 41.

    交互美学——实用主义者对交互系统的美学。出版:第五届交互系统设计会议论文集:过程、实践、方法和技术。2004; 269 - 276。https://doi.org/10.1145/1013115.1013153

  42. 42。

    Boddy Cr。定性研究的样本量。Qualmark Res。2016; 19(4):426-32。https://doi.org/10.1108/QMR-06-2016-0053.

    文章谷歌学术

  43. 43。

    从工具到伙伴:人机交互的进化。Synth Lect Human-Centered Inform. 2017;10(1): i-183。https://doi.org/10.2200/S00745ED1V01Y201612HCI035

    文章谷歌学术

  44. 44。

    等。平板电脑-下一代序列组装可视化。生物信息学,2010,26(3):401 - 2。https://doi.org/10.1093/bioinformatics/btp666

    中科院文章谷歌学术

  45. 45。

    Carver T, Harris SR, Berriman M, Parkhill J, Mcquillan JA。Artemis:基于高通量序列的实验数据可视化和分析的集成平台。生物信息学。2012;28(4):464 - 9。https://doi.org/10.1093/bioinformatics/btr703.

    中科院文章PubMedp谷歌学术

  46. 46。

    Larsson a . AliView:用于大数据集的快速和轻量级对齐查看器和编辑器。生物信息学2014;30(22):3276 - 8。https://doi.org/10.1093/bioinformatics/btu531

    中科院文章PubMedp谷歌学术

  47. 47。

    横山TT, Kasahara M.全基因组测序确定的人类结构变异的可视化工具。J Hum Genet. 2020; 65:49-60。https://doi.org/10.1038/s10038-019-0687-0

    文章PubMed谷歌学术

  48. 48。

    基因组浏览(Epi):干细胞研究人员的数据资源和表观基因组浏览指南。《细胞干细胞》2013;13:14-21。https://doi.org/10.1016/j.stem.2013.06.006

    中科院文章PubMedp谷歌学术

  49. 49。

    人类(和其他)基因组浏览器的比较。哼基因组学。2006;2(4):266 - 70。https://doi.org/10.1186/1479-7364-2-4-266

    中科院文章PubMedp谷歌学术

  50. 50.

    Waldispühlj,张e,butyaev a,Nazarova e,Cyr Y.存储,可视化和3D基因组学数据的导航。方法。2018; 142:74-80。https://doi.org/10.1016/j.ymeth.2018.05.008

    中科院文章PubMed谷歌学术

  51. 51.

    晚餐A.声音信息:复杂数据和数字音频时代的音响化。正崇拜。2015;(4):441 - 64。https://doi.org/10.7560/IC50401.

    文章谷歌学术

  52. 52.

    哈特SG。NASA任务负载索引(NASA-TLX);20年之后。Proc Hum因子Ergon SoC Annu见面。2006; 50(9):904-8。https://doi.org/10.1177/154193120605000909.

    文章谷歌学术

  53. 53.

    Walker BN,Mauney LM。通用的听觉图设计:视觉受损和观察听众的超声映射的比较。ACM Trans访问计算。2010; 2(3):1-16。https://doi.org/10.1145/1714458.1714459

    文章谷歌学术

下载参考

确认

我们感谢Heleen Plaisier提供的初步工作,Stevie Bain提供的获取用户反馈的建议,以及Lilian Barnes提供的编辑和校对帮助。我们感谢那些完成调查并加入我们焦点小组的人。

资金

这项工作得到了UKRI生物技术和生物科学研究委员会(BBSRC)的资助,资助号为BB/M010996/1。

作者信息

隶属关系

作者

贡献

EJM和DB:构思和设计了研究;EJM:进行研究并分析数据;EJM,DB和TRM:写论文。所有作者阅读并认可的终稿。

通讯作者

对应到丹尼尔巴克

道德宣言

伦理批准和同意参与

该项目获得了爱丁堡大学信息学研究伦理过程学院的伦理审批,申请参考号为2019/29456。获得所有受试者的知情同意。所有方法均按照相关指南和规定进行。

同意出版

不适用。

相互竞争的利益

两位作者宣称他们没有相互竞争的利益。

额外的信息

出版商的注意

欧宝体育黑玩家施普林格《自然》杂志对已出版的地图和机构附属机构的管辖权要求保持中立。

权利和权限

开放访问本文是基于知识共享署名4.0国际许可,允许使用、共享、适应、分布和繁殖在任何媒介或格式,只要你给予适当的信贷原始作者(年代)和来源,提供一个链接到创作共用许可证,并指出如果变化。本文中的图像或其他第三方材料都包含在本文的知识共享许可中,除非在该材料的信用额度中另有说明。如果资料不包括在文章的知识共享许可协议中,并且你的预期用途没有被法律规定允许或超过允许用途,你将需要直接从版权所有者获得许可。如欲查阅本许可证副本,请浏览http://creativeCommons.org/licenses/by/4.0/.Creative Commons公共领域奉献豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文提供的数据,除非在数据的信贷额度中另有说明。

重印和权限

关于这篇文章

通过Crossmark验证货币和真实性

引用这篇文章

马丁,E.J.,Meagher,T.R.&Barker,D.使用声音来了解蛋白质序列数据:蛋白质序列的新超声处理算法和多个序列比对。欧宝娱乐合法吗22,456(2021)。https://doi.org/10.1186/s12859-021-04362-7

下载引用

关键字

  • 超声处理
  • 序列分析
  • 蛋白质序列
  • 多序列比对
  • 覆盆子π
  • 声波π
  • 算法
  • 定性研究
  • 可视化
  • 生物信息学