深度学习给生物学带来了哪些变化?

深度学习研究及其在生物医学领域的潜在应用

深度学习已经在各种生物应用中取得了成功。在本节中,我们回顾了深度学习在各个研究领域中的挑战和机遇,如果可能的话,还回顾了将深度学习应用于这些问题的研究(表1)。我们首先回顾了生物标记发展的重要领域,包括基因组学、转录组学、蛋白质基因组学、结构生物学和化学。然后,我们回顾了药物发现和再利用的前景,包括多平台数据的使用。

生物标记。生物医学的一个重要任务是将生物数据转化为反映表型和身体状态(如疾病)的有效生物标志物。生物标记对于评估临床试验的结果很重要。识别敏感和特异的生物标志物是现代转化医学的巨大挑战。计算生物学是生物标记发展。事实上,从基因组学到蛋白质组学,任何数据源都可以使用;这些将在下一节讨论。

基因组学。下一代测序(NGS)技术已经允许产生大量的基因组数据。这些数据的大部分分析可以通过现代计算方法在计算机上进行。这包括基因组的结构注释(包括非编码调控序列、蛋白质结合位点预测和剪接位点)。

基因组学的一个重要分支是宏基因组学,也称为环境、生态基因组学或群落基因组学。NGS技术揭示了未培养微生物的天然多样性,这在以前没有得到充分的研究。

在宏基因组学中有几个生物信息学的挑战。一个主要的挑战是序列数据的功能分析和物种多样性的分析。深度信念网络和递归神经网络的使用已经允许宏基因组pH数据和人类微生物组数据的表型分类。与基线方法相比,这些方法没有像强化学习那样提高分类精度,但是提供了学习数据集的分层表示的能力。

深度学习在处理高维矩阵转录组数据方面也取得了一定的成功。在另一种方法中,提取基因表达的特征以及不编码转录物如miRNA的区域;这是通过使用深度信念网络和主动学习来实现的,其中深度学习特征提取器用于降低六个癌症数据集的维度,并且优于基本特征选择方法[27]。主动学习和分类的应用提高了准确性,并允许选择癌症相关特征(改进的癌症分类),而不仅仅是基于基因表达谱。使用miRNA数据的特征选择是利用与先前选择的特征子集的目标基因的关系来实现的。

在另一个深度学习应用中,Fakoor等人用自编码器网络将其推广,并使用从不同类型的微阵列平台(Affimetrix家族)获得的不同基因集的微阵列基因表达数据将其应用于癌症分类[28]。他们将PCA与无监督的非线性稀疏特征学习(通过自动编码器)相结合,使用降维来构建用于微阵列数据一般分类的特征。癌症和非癌症细胞的分类结果显示了重要的改进,尤其是监督微调的使用,使得特征不太通用,但即使对于没有跨平台标准化的数据,也可以获得更高的分类精度。自动编码器的全局泛化能力有助于不同微阵列技术收集的数据,因此对公共领域的数据进行大规模综合分析可能是有前途的。

图像处理应用。基因表达也可以以视觉形式储存为图像,例如来自微阵列的图像荧光信号或RNA原位杂交荧光或放射性信号。在一些应用中,以其出色的图像处理性能而闻名的CNN已经显示出改善这些图像分析的潜力。

在微阵列分析中,由于斑点大小、形状、位置或信号强度的变化,检测信号和识别荧光斑点可能具有挑战性,并且荧光信号强度通常对应于基因或序列表达水平的差异。在深度学习技术对该问题的一个应用中,使用CNN进行微阵列图像分割,并且它在精度上显示出与基准方法相似的精度,但是训练更简单并且需要更少的计算资源。[29]

将CNN应用于基于图像的基因表达数据的另一个机会是RNA原位杂交,这是一项繁琐的技术。当这种操作被允许时,基因表达可以在一组细胞、组织切片或整个有机体中被定位和可视化。这种方法促进了强有力的纵向研究,并解释了发展过程中表达模式的变化。用于构建详细的艾伦发育小鼠脑图谱,其中包含2000多个基因表达图谱,每个基因在多个脑部分进行描述。过去,这些手动注释既耗时又昂贵,有时还不准确。但最近曾等人使用深度预训练CNN进行自动标注[30]。为此,神经网络模型在没有关于坐标的确切信息(空间信息)的情况下,在原始自然原位杂交图像的不同层次上训练发展中国家的大脑;这项技术在四个发展阶段的多个大脑水平上实现了出色的准确性。

编辑。深度学习的另一个应用领域是拼接。剪接是真核生物提供蛋白质多样性的主要因素之一。另外,最近的研究显示了“剪接密码”与各种疾病的联系[31]。然而,现代科学仍然不能完全理解控制剪接调控的机制。剪接调控的现代概念包括转录水平、特定信号调控序列元件(剪接增强子或沉默子)的存在、剪接位点的结构和剪接因子的状态(例如特定位点的磷酸化可能改变剪接因子的活性)。所有这些因素使分析变得复杂,因为有大量的元素和它们之间复杂的非线性相互作用。现有的镶嵌预测软件需要高通量测序数据作为输入,并且面临着原始读数比常规基因短,基因组中重复水平高和存在假基因的问题。因此,缝合机制的分析算法非常慢,并且需要高度组合的计算资源,而深度学习可能会在这方面提供改进。在一个使用五个组织特异性RNA-seq数据集的深度学习应用中,通过使用基因组序列和组织类型中特征的隐藏变量开发了DNN,并被证明在预测个体内和组织间组织剪接外显子剪接的转录本百分比变化方面优于贝叶斯方法(剪接代码度量)[32]。

非编码RNA非编码RNA是生物学的另一个问题,需要复杂的计算方法,比如深度学习。非编码RNA非常重要,涉及转录、翻译和表观遗传学的调控[33],但仍难以与编码蛋白质的RNA区分。对于短的非编码RNA来说,这个任务已经很好的解决了,但是对于lncRNA来说还是相当有挑战性的。LncRNAs是异质的,可能包含一个假定的复制起点(ORF)和短的蛋白样序列。一种新的深度学习方法,称为lncRNAMFDL,被开发用于识别lnc-RNAs,使用orf,K个相邻碱基,二级结构和预测的编码域序列。该方法使用从Gencode(lncRNA)和Refseq(蛋白质编码的mRNA数据)的序列数据中提取的五个独立特征,并在人类数据集中产生97.1%的预测准确度。

表达性状的基因位点分析。最后,数量性状位点(QTL)分析有进一步研究的潜力。QTL分析鉴定包含导致复杂多基因性状(如体重、药物反应、免疫反应)表型变异的多态性的基因座。显示遗传变异的一个这样的“特征”是在给定的组织和/或条件下任何给定基因的表达或转录丰度。表达QTL(eQTL)是一个影响转录本丰度的遗传变异位点。EQTL分析导致了对人类基因表达调控的深入了解,但它面临着许多挑战。局部调节表达的EQTL(顺式-eQTL)相对容易通过有限数量的统计测试来识别,但调节基因组其他部分基因表达的反式-eQTL更难检测。最近,一种深度学习方法MASSQTL[35]被提出,用于使用各种编码的生物特征来解决trans-eQTL预测问题,如物理蛋白质相互作用网络、基因注释、进化保守性、局部序列信息和来自ENCODE项目的不同功能元件。DNN优于其他机器学习模型,通过使用来自各自交叉验证折叠的九个DNN模型,并为基因表达的调控框架提供了一种新的机制。深度解码系统还用于对trans-eQTL特征向量进行聚类,然后通过t-SNE降维技术进行可视化。

蛋白质组学。与转录组学相比,蛋白质基因组学是一个相当不发达的研究领域,数据少,分析的计算方法少。即使存在类似的信号编码和传输机制,但人类蛋白质组学数据的缺乏以及将模式生物的结果转化到人类的困难使分析变得复杂。

深度学习可以在许多方面使蛋白质组学受益,因为一些方法不需要像其他机器学习算法那样多的训练案例。深度学习方法的其他优点是,它们建立了数据的分层表示,并从复杂的相互作用中学习一般特征,这有利于蛋白质组学和蛋白质中的网络分析。例如,使用磷酸化数据,双峰深度信念网络已用于预测大鼠细胞对相同刺激的细胞反应[36]。与传统的流水线相比,所开发的算法达到了相当高的精度。

结构生物学和化学。结构生物学包括蛋白质折叠分析、蛋白质动力学、分子建模和药物设计。二级和三级结构是蛋白质和RNA分子的重要特征。对于蛋白质来说,正确的结构确定对于预测酶的功能、催化中心和底物之间结合的形成、免疫功能(抗原结合)、转录因子(DNA结合)和转录后修饰(RNA结合)都很重要。失去适当的结构将导致功能丧失,在某些情况下,将导致异常的蛋白质聚集,这可能导致神经退行性疾病,如阿尔茨海默病或帕金森病。[37]

基于化合物同源性的比较建模是一种预测蛋白质二级结构的可能方法,但它受到良好注释的化合物数量的限制。另一方面,机器学习从头预测是基于具有众所周知结构的化合物的识别模式,但它不够准确,无法在实践中使用。使用从零开始的深度学习方法,利用蛋白质测序数据改进结构预测[38]。类似地,深度学习已经被应用于使用星体数据库数据和复杂的三阶段方法来预测二级结构元件和氨基酸残基之间的接触和取向[39]。所使用的方法是分析有偏差和高度可变数据的有效工具。

三维结构的不变性在功能上也很重要。然而,一些蛋白质物种没有独特的结构来参与基本的生物学过程,如细胞周期控制、基因表达调控和分子信号传递。此外,最近的研究显示了一些无序蛋白质的重要性[37];许多癌基因蛋白质具有非结构域,错误折叠的蛋白质异常聚集导致疾病发展[40]。这种没有固定三维结构的蛋白质称为固有无序蛋白质(IDP),而没有恒定结构的结构域称为固有无序区(IDR)。

许多参数将IDP/IDR与结构化蛋白质区分开,这使得预测过程具有挑战性。这个问题可以通过使用深度学习算法来解决,深度学习算法可以考虑各种特征。2013年,Eickholt和Cheng发表了基于序列的深度学习预测指标DNdisorder,相对于高级预测指标[41]提高了对无序蛋白质的预测。后来在2015中,王等人提出了一种新方法,DeepCNF,利用蛋白质结构预测临界评估(CASP9和CASP10)的实验数据,可以准确预测多个参数,如IDPs或具有IDR的蛋白质。DeepCNF算法通过使用许多特征,性能优于基线单从头计算(ab initio)预测指标[42]。

另一类重要的蛋白质是结合单链或双链RNA的RNA结合蛋白质。这些蛋白质参与RNA各种转录后修饰:剪接、编辑、翻译调节(蛋白质合成)和聚腺苷酸化。RNA分子形成不同类型的臂和环,需要识别和形成连接RNA和蛋白质的二级和三级结构。RNA的二级和三级结构是可预测的,并已通过应用深度信念网络用于建模结构偏好和预测RBP的结合位点[43]。在真实的CLIP-seq(交联免疫沉淀高通量测序)数据集上验证了深度学习框架,以显示从原始序列和结构分布中提取隐藏特征的能力,并准确预测RBP的位点。

药物发现和再利用。计算药物生物学和生物化学广泛应用于药物发现、开发和再利用的几乎每个阶段。在过去的几十年中,不同的研究小组和公司开发了大量的计算方法,用于在世界范围内对药物发现和靶标延伸进行计算机模拟,以减少时间和资源消耗。虽然有很多方法[44],但没有一个是最优的(例如,无法进行通量筛选或按蛋白质类别限制)。现在一些研究表明,深度学习是一种重要的考虑方法(表1)。

药物发现的重要任务之一是预测药物靶标的相互作用。目标(蛋白质)通常具有一个或多个与底物或调节分子的结合位点;这些可以用来建立预测模型。然而,包含其他蛋白质成分可能会使分析产生偏差。Wang等人使用成对输入神经网络()接受具有从蛋白质序列和靶分布获得的特征的两个载体的能力来计算靶-配体相互作用[45]。神经网络的这一优点比其他有代表性的靶-配体相互作用的预测方法更准确。

药物发现和评估昂贵、耗时且有风险;计算方法和各种预测算法有助于降低风险和节省资源。一个潜在的风险是毒性;例如,肝毒性(肝毒性)是药品停产的常见原因。通过计算方法预测肝毒性可能有助于避免可能的肝毒性药物。利用深度学习,不需要复杂的编码过程就可以有效确定具有原始化学结构的化合物的毒性[46]。使用CNN还可以预测环氧化等性质,这意味着高反应性和可能的毒性;这是休斯等人第一次实现。通过使用简化的分子输入行输入规范(SMILES)格式的环氧化分子和氢氧化物分子的数据作为阴性对照[47]。

多平台数据(多组学)。能够使用多平台数据是深度学习算法的主要优势。因为生物系统是复杂的,并且具有许多相互关联的元素,基因组学、表观基因组学和转录组学数据的系统水平整合是提取最有效和生物学上有意义的结果的关键。整合过程在计算上并非不重要,但好处是与单源方法相比,生物标志物特异性和灵敏度增加。

计算生物学中需要分析组合数据的主要领域之一是计算表观遗传学。基因组、转录组、甲基化组特征和组蛋白修饰的联合分析提供了精确的表观基因组预测。

一些研究人员开发了深度学习方法,可用于分析来自多个来源的数据(表1)。Tools.genes.toronto.edu/deepbind/,是一种基于深度学习的方法,由Alipanahi等人开发,用于计算核苷酸序列结合各种疾病中转录因子和RNA结合蛋白的能力,并表征单点突变对结合特性的影响。DeepBind软件受CNN启发,对技术不敏感;相反,它兼容从微阵列到序列的定性不同形式的数据。CPU的实现也允许用户并行化计算过程[48]。在另一个基于CNN的应用中,周和Troyanskaya设计了DeepSEA框架来预测染色质特征和评估疾病相关的序列变异。与其他计算方法不同,他们的算法可以捕获每个结合位点的大规模上下文序列信息,用于注释从头序列变体[49]。开发了类似的CNN管道来揭示序列变异对染色质调节的影响,并训练和测试了DNase-seq(DNase I测序)数据[50]。一个名为Bassed的深度学习软件优于基线方法,在所有数据集上实现了0.892的平均AUC。最后,随着深度特征选择模型的发展,深度学习被用于识别活性增强子和启动子。这个模型利用了DNN对复杂的非线性相互作用进行建模的能力,并学习高级的广义特征[51]。该模型从多平台数据中选择特征,并根据其重要性进行排序。在这些应用中,深度学习方法是一种更加敏感和强大的染色质特性预测器,也是开发复杂生物标志物的关键。

癌症是一组异质性疾病的统称,其中一些疾病是由基因突变引起的,因此使用多平台数据对癌症进行分类可以揭示潜在的病理。梁等人开发了一个具有多平台数据的深度信念网络模型,用于聚类癌症患者[52]。受限玻尔兹曼机用于对每个输入模式定义的特征进行编码。这种方法的一个优点是深度信念网络不需要正态分布的数据,因为其他聚类算法和遗传(生物)数据都不是正态分布的。

最后,从自然语言处理的角度来看,深度学习在浏览庞大的非结构化(研究出版物和专利)和结构化数据(知识标注图谱,如基因本体[53]或Chembl[54])时,检验假设的合理性。这些数据库共同构成了一个庞大的、多平台的数据集,如果结合起来会更丰富、更全面。

总之,现代生物数据的庞大规模对于以人为本的分析来说过于庞大和复杂。机器学习,尤其是深度学习与人类专业知识的结合,是全面整合多个大型多平台数据库的必由之路。深度学习使人类能够做以前无法想象的事情:百万输入的图像识别,接近人类能力的语音识别和语音自动化。尽管深度学习,尤其是无监督的深度学习,仍处于起步阶段,尤其是在生物学应用方面,但最初的研究支持它是一种有前途的方法,可以克服生物数据的一些问题,并对数百万间接和相互关联的疾病的机制和方式给予新的见解,尽管在实现上没有限制和挑战。