1.蛋白质组学研究方法概述(一)

注:本笔记由克里克学院与康雨生于2065438年6月至2017年6月主持的蛋白质组学习网络课堂编辑删除。本课程由上海交通大学系统生物医药研究院助理研究员库欣博士主讲。

众所周知,蛋白质的蛋白质组学是研究一个细胞或一个有机体表达的所有蛋白质。虽然现在基因组测序乱七八糟,但是我们不要忽视蛋白质是执行生命功能的基本单位,蛋白质通过形成各种化合物,形成通路网络来执行各种生物功能!因此,有许多生物学问题只能在蛋白质水平上进行研究和探索,但也需要在系统水平上进行研究,如蛋白质-蛋白质相互作用、蛋白质细胞定位、翻译后修饰、信号途径和代谢途径的调控和功能。这就是蛋白质组学如此重要的原因!

既然重要,科学家自然想尽办法去研究!首先使用的技术是传说中的二维凝胶电泳(2-DE)。由于低分辨率和蛋白质重叠等各种问题,通量和准确度都不令人满意。质谱技术兴起后,很快被取代。

说起质谱的诞生,估计很多朋友都听过著名的刁丝逆袭的故事,故事讲述的是2002年诺贝尔化学奖得主田中健一作为蛋白质谱的发明者之一,在实验中不小心加入了甘油,结果质谱被神奇地引入了识别生物大分子的应用领域。想想有多不可思议,从整个人类科技发展史到每个个体的生活~

当质谱技术和蛋白质组学相遇在一起,真的是闪电引发了大火,产生了强烈的化学反应,迅速引爆了整个学科的发展!短短十几年间,蛋白质组学的研究目标从细胞模型、动物模型到体液、组织等人体样本,其应用范围的生物学复杂度越来越高。研究的目的从最初的肽序列推导,到肽和蛋白质的定性定量分析、翻译后修饰,再到现在的靶向蛋白质基因组学,已经成为新的热点。总之,势不可挡!

说到靶向蛋白质组学,我们都知道蛋白质组学的应用领域一直主要针对基础生物学,比如研究通路、蛋白质复合物、相互作用网络、表征细胞和组织的类型、观察细胞周期中蛋白质的表达等。近年来,由于技术的快速发展,蛋白质组学已被用于医学研究和药物研究。比如药物研究,在中国可能还没有广泛应用,但在欧美已经开始越来越广泛的应用。以肝毒性为例,蛋白质组学可以为药物研发早期评估肝毒性提供研究方法。

那么,如何将蛋白质组学应用于临床和药物研发呢?是需要有针对性的蛋白质组学技术!此前,蛋白质组学主要用于发现新的未知,如肽段、蛋白质复合物、蛋白质的翻译后修饰等。这部分应用很广,技术门槛比较低,方法也比较通用。但问题是这种方法无法应对大量的临床样本,重复性和准确性都达不到要求。

于是,针对性分析开始兴起,也就是说,在分析之前,我们就清楚的知道需要分析的物质是什么,然后挑选出来进行准确的定量分析!我们不需要一次验证几千个蛋白质,而是需要在几百个早晨的样本中验证十几个或者几十个我们关心的蛋白质,而这些蛋白质往往是浓度非常低的蛋白质,基本上是传统方法所遗漏的(后面我会详细说为什么会遗漏)。有了靶向技术,对临床诊断生物标志物的研究就有了更大的可能性和更强的支持!

然后按照老师讲课的思路,从定性检测、定量检测、靶向蛋白质组学三个方面来分享收获。

无论是定性还是定量检测,样品制备都是不可避免的准备工作。质谱分析用的蛋白质样品来源很广,只要你把蛋白质的东西包括进去,就可以作为来源。对于复杂样品,如人体体液或组织样品,蛋白质的提取和除峰往往需要复杂精细的处理,处理流程因样品和研究目的不同而不同。这部分内容,第二讲“样品预处理”会有详细介绍,感兴趣的朋友可以期待我的下一讲笔记~

换句话说,蛋白质的定性检测有两种思路:自下而上和自上而下。Top down是指质谱中一个完整蛋白质的片段化,通过检测片段分子来推断蛋白质的序列。自下而上的方法,真正在使用中占绝大多数的是鸟枪法,这种方法充分利用了蛋白质自身的特性:可以在特定的位点被特定的酶切断。基本思路是先用蛋白酶消化蛋白质序列,再对消化后的肽进行鉴定,所以进入质谱的检测对象始终是肽,然后根据肽序列推导出蛋白质序列。

1.样品处理:从蛋白质来源获取各种样品进行预处理和优化。

2.蛋白质分离:根据研究需要,采用凝胶分离提取所需蛋白质,或不经分离全部检测,注意去除杂质;

3.酶消化:用序列特异性酶消化蛋白质;

4.肽段的分离:酶切后的肽段进入HPLC(高压液相色谱),也就是我们常说的LC-MS,由于在色谱柱填料上保留时间不同,肽段会进行预分离;

5.电离:通过施加电压(ESI)将分离的肽电离;或者MALDI基质辅助的激光解离,不需要HPLC过程;

6.质谱分析:将带电的肽段送去质谱分析时,肽段会在磁场中发生偏转(质谱分析的基本原理),在质谱中采集信号,得到谱图。

7.搜索数据库:用搜索软件自动分析质谱,得到肽和蛋白质的序列信息。

从另一个角度来看,我们可以将霰弹枪法的过程总结如下:

其中一个最关键的指标叫做肽谱匹配(PSM),指的是谱图和肽的匹配。匹配越好,推断的蛋白质就越准确。这个匹配过程也就是我们常说的搜索数据库。然后我会分享从课程中学到的背景知识,搜索工具和算法,以及搜索结果的评价。

质谱,听起来很高大上,不管多贵,都是由离子源+质谱分析仪+检测器三部分组成。

一台质谱仪可以有一个以上的离子源\分析器\检测器,也可以根据不同的分析需要串联几个种类。

离子源

先说离子源。蛋白质光谱中使用的ESI(电喷雾电离)是蛋白质组学的标志性发明!因为是直接从液相电离,所以和LC(液相色谱)结合起来更容易。我们可以使用LC对非常复杂的肽混合物进行预分离,以降低每个分析物的复杂性,然后分离出的肽可以直接进入ESI,形成电离喷雾。

那么,ESI喷雾是如何形成的呢?简单来说,分离柱的前端有一个小开口,分析物根据质量和电荷的不同依次通过前端的小开口。向小开口施加电压。起初,静电力和表面张力是一样的。当静电力增大使其大于表面张力时,液膜破裂,形成无数带电液滴,形成喷雾。像相对较新的nanoESI技术,LC的流速更慢,电离效果更好。对于觉得上面描述不够生动的童鞋,就看图吧:

质量分析器

说完离子源,再来说说质谱仪最重要的部分——质量分析器。我们平时听到的各种质谱仪的名称,都是根据质谱分析仪的种类来命名的。我们样品中的每一种成分都在离子源中电离,经过加速电场的作用,形成离子束,进入质量分析器。质量分析仪根据荷质比分离带电离子,记录各种离子的质量数和丰度,用于后续定性定量分析。

质量分析仪有两个主要技术参数:质量范围和分辨率。质量范围是指可以测量的质荷比的范围,它决定了我们可以探测的离子的范围。例如,ESI离子源可以产生许多m/z大于3000的离子。如果你选择的质量分析仪上限小于3000,那么你就检测不到3000以上的离子。

然而,另一个更重要的指标是质量分析仪的分辨率!首先,前面的公式描述了:

分辨率=观察到的质谱峰的质荷比/半峰高的峰宽(FWHM)

你什么意思?例如,下图中最左边的峰的质荷比为1,085.55,峰高一半处的峰宽为0.217,因此:

分辨率= 1,085.55/0.217 = 5000。

如果你还不明白这一点,可以简单的理解为质谱的分辨率越高,峰会越尖越细。你可能会问:光谱峰又尖又细有什么好处?这个问题问得好!事实上,分辨率可以表征质谱中区分两个相邻谱峰的能力。我们来感受一下不同分辨率的质谱仪能给我们怎样不同的峰图。

以胰高血糖素为例,展示了不同分辨率的质谱仪给出的谱峰。分辨率为1000时,只能看到很宽的峰值(蓝色);分辨率提高到3000时,峰值变窄(红色),但无明显差异;提高到10000时,很明显实际上有8个峰值(绿色);增加到30000时,半峰宽更窄,相邻两个峰可以完全分开(黑色)。显然,当分辨率为1000或3000时,我们无法准确检测出被分析肽段的确切分子量,从而导致光谱错配或错配。

不同的质谱分析仪分辨率不同,通常的顺序是:傅里叶变换质谱分辨率最高,但成本太贵;其次是Orbitrap(轨道阱系列),分辨率远高于其他质谱;再次是TOF(飞行时间质谱);然后离子阱;最后,四极质谱。

这里我再说一句,高分辨率好,但是价格肯定贵。在选择质谱仪的时候,要根据自己的研究目的和预算范围!

次级质谱分析

但是,用一级质谱鉴定该肽显然是不可能的。我们不能根据肽的离子m/z的值来推断肽由哪些氨基酸残基组成(有很多种可能的组合)以及序列顺序是什么,对吧?因此,需要二次质谱来鉴定肽段。

什么是二次质谱?简单来说就是通过一级质谱得到肽段混合物的一级光谱,然后从中选出一个肽段。通过一些方法,例如,通过与惰性气体碰撞来粉碎肽片段以获得片段离子,然后形成二级光谱。我们通过观察碎片离子的质量分布来推断肽残基的组成,最终推断出蛋白质是什么。最后一张图帮助你理解二次质谱是怎么来的。

上一段我提到一个肽段是从一级质谱中“挑选”出来进入二级质谱的。这里说的看似表面,其实如何选择才是关键问题!通常我们选择的方法可以称为“顶”法(这是我自己取的名字)。比如TOP15是指从一级光谱中选择前15个峰,一次分离一个肽段,然后扫描这个肽段得到二级光谱。

大家都发现了吗?如果一个肽在一级谱中没有进入TOP15,就没有资格玩二级谱!原来质谱的世界竞争也是残酷的!二级质谱可以扫描哪些肽段是一级质谱确定的,所以我们把这种方法叫做“DDA,数据依赖采集)”吧!

看,DDA这个名字就是这么来的!下次你听到有人说DDA,你不会有一百个问号飞过吧?

我们想一想,不难发现,如果一个蛋白质的浓度不够高,也就是说,它的肽段很难成为一级谱中的那些顶尖,那么它基本没有可能进入二级质谱。这就是为什么低峰度蛋白质很难识别的原因!这就是为什么我们在制作血液等样本时,必须去除血红蛋白等高密度蛋白质(如果你要鉴定的蛋白质不是血红蛋白的话)!

很明显,DDA方法的局限性就在那里!想研究低峭度蛋白质的科学家怎么能容忍这种情况?于是,一种叫做数据独立采集(DIA)的新方法应运而生!关于这种方法的原理,下一篇推文会详细介绍。

我们通过下图感受一下一次声谱图和二次声谱图的关系:

例如,在第一个时间点,我们扫描MS1,然后选择一个具有高峰的肽来扫描MS2,等等。在一些扫描速度快的质谱仪中,一个MS1谱图可以扫描80个MS2。

碎片离子的鉴定

好了,我们已经搞清楚了二级质谱是怎么来的,那么如何根据检测到的离子信息来推断它是什么氨基酸呢?也许你会说,这不是很简单吗?按分子量!

是的,不同的氨基酸,它的分子量不是一个简单的数值吗?但是,这件事并没有那么简单,因为这个世界上还有一种神奇的东西,它的名字叫同位素!

例如,最常见的碳元素是原子量为12的元素,我们称之为C12。但是,它也有一个同样稳定的好朋友,C13(多一个中子)。所以我们不得不考虑这两种稳定同位素的含量(百度百科说C13占1.11%,C12占98.89%)。对于一种氨基酸,我们会得到两种不同的分子量:

为什么说一般?因为肽的分子量越大,含有各种同位素和不同组合的可能性就越大。如果我们计算每个组合的分子量,我们会得到一个很长的列表。哪个值将用于光谱匹配?我不知道。所以简单的用一个平均值来表示。

我们通过下表感受一下单个同位素分子量和各种氨基酸残基平均分子量的区别:

也许你会问,这两种不同分子量的分别用在什么情况下?这里又要说分辨率了。如果我们使用高分辨率的质谱仪,不同的同位素峰被清晰地分开,也就是说,我们可以在光谱中看到几个同位素峰,那么我们就可以使用单个同位素的分子量,它可以精确地对应相应的单个同位素峰。但是在低分辨率质谱仪中,这些峰很可能混合在一起,看起来就像只有一个峰。在这种情况下,除了用平均分子量来近似它们之外,别无他法。

下图可以形象地展示单个同位素分子量与质谱上的平均分子量有多么不同。根据高分辨率质谱分析,这完全是两种不同的离子。上面我们说了,按平均分子量计算结果不准确,但按单同位素分子量可以准确计算出来。

除了同位素,还有一个因素我们也需要考虑,就是当肽段进入二级质谱时,可能会形成三种不同的离子类型,也就是我们通常所说的by离子,ax离子,cz离子。

之所以形成不同的离子对,是因为不同的断裂方式导致肽段的位置不同。看看上图你就明白了。当我们使用CID(碰撞诱导解离)或HCD(高能C阱解离)进行碎裂时,与惰性气体碰撞的是C-N键。这里Y离子在C端产生,B离子在N端产生,这是二次质谱产生的最常见的离子对。当我们使用ETD(电子转移解离)碎裂时,因为有一个电子反应的过程,加电子后发生的碎裂可能出现在N-C键,形成cz离子,而TOF仪器可能产生ax离子。

离子类型的信息需要传递到后续的搜库步骤(通常我们在搜库软件中指定仪器类型,软件会自动匹配离子类型)。计算机需要模拟最可能的碎裂位置,生成相应的理论声谱图,然后与实际声谱图进行对比。让我们以by离子为例,看看一个肽段可能断裂成哪些碎片离子:

然后它可能会生成这样一个频谱图:

从光谱中,该肽中的所有by离子都被检测到。一般来说,丰度好、长度合适的肽段被高精度质谱仪完全捕获是很常见的。通常,50%-80%的离子可以被捕获。

接下来的部分继续讲定性检测中定量检测的数据库搜索工具、结果评价以及各种背景知识。