0%

MS based proteomics

MS based proteomics

本文对proteomics lecture3~5进行了简要的回顾。

大概这就是lecture3头疼没听的代价。

Lecture3

MS能做什么?

  • 测量质量
  • 给出关于分子结构的信息
  • 依照质荷比分离粒子。

如果采用电喷雾质谱法(Electrospray mass spectrometry), mass/chargemass/charge如下

mass/charge=(MolecularMass+nH+)/nmass/charge= (MolecularMass+nH^+)/n

MolecularMass 定义的单位是Da(dalton),

1Da=112mass of Carbon 121Da = \frac{1}{12}mass~of~Carbon~12

由于经常碰到同位素,有平均质量单位(amu).

MS

进入MS中后,对于同样的粒子会得到多个带不同数量电荷的峰,通过Deconvolution algorithm从m/z反推出原始质量。

我并不明白Deconvolution algorithm是怎么回事。

除了因为带不同电荷产生不同的峰之外,如果质谱的精度很高还会看到这种因为同位素产生的多个峰。

MS performance factors

  • Mass accuracy e.g. 1000±0.1=0.01%=100ppm1000\pm0.1 = 0.01\%=100ppm
  • Resolution,峰和蜂之间能否分开 R=mδmR =\frac{m}{\delta m}
  • Sensitivity
  • Dynamic range
  • m/z scan range
  • MS Scan rate & MS/MS scan rate: How fast
  • cost

MS instrument

image-20200325234005384

Ionization Methods

  • Electron Impact(EI-Hard method) -> small molecules 1-1000 Daltons, structure
  • Fast Atom Bombardment(FAB-Semi-hard) -> peptides, sugars, up to 6000 Daltons
  • Electrospray Ionization(ESI-Soft) -> peptides,proteins, up to >200000 Daltons
  • Matrix Assisted Laser Desorption(MALDI-Soft,基质辅助激光解吸电离) -> peptides, proteins, DNA, up to 500 kDa
Soft ionization(软电离)

保持分子的完整性。所谓“软”是相对于EI而言的,样品分子离子化之后剩余的能量比较小,不会发生裂解。上面的ESI(电喷雾电离,原理见上)、MALDI(基质辅助激光解吸电离,通过基质分子的中介作用避免过高能量)、FAB(快原子轰击,惰性气体经过电子轰击加速,通过产生的高能中性原子轰击样品)都属于软电离。

ESI原理
  1. ESI是怎样能做到将样品分散的?
  2. 为什么计算质合比的时候需要带上H+的质量呢?

Ionization mechanism of ESI

进行ESI时,样品溶液经很细的进样管进入电喷雾室,在强电场的作用下,含有目标分析物的液体通过电喷雾分散成细小的气溶胶。 因为离子形成涉及大量溶剂蒸发(也称为去溶剂化),所以通过将水与挥发性有机化合物(例如甲醇、乙腈)混合来制备用于电喷雾电离的典型溶剂。 为了减小初始液滴尺寸,通常将增加电导率的化合物(例如乙酸)加入溶液中。 这些物质还提供质子源,以促进电离过程。 除了ESI源的高温外,大流量电喷雾还可以从加热的惰性气体(如氮气或二氧化碳)的雾化中受益。通过带有大约3000V电位差的毛细管将气溶胶采样到质谱仪的第一真空级,可以将其加热以帮助溶剂从带电液滴中进一步蒸发。 溶剂从带电液滴中蒸发,直到达到瑞利极限时变得不稳定。 此时,随着类似电荷的静电排斥(不断减小的液滴尺寸)变得比将液滴凝聚在一起的表面张力更强大,从而使液滴变形。 此时,液滴经历库仑裂变,从而使原始液滴“爆炸”,从而形成许多更小,更稳定的液滴。 新的液滴经历去溶剂化,随后进一步发生库仑裂变。 在裂变期间,液滴损失了其质量的一小部分(1.0–2.3%),同时损失了相对较大比例的电荷(10–18%)。也就是说这些看似“多出来的H+H^+”实际上是样品溶液溶剂中的H和加入增加电导率化合物中的H。而被夺取的电子则到了上图Spraying nozzle的负极板上。

Ionization mechanism of ESI2

通过这种方法,对于1200Da的离子通常为1价,更大的离子(比如多肽)可以带2~30+的电荷,并且这种带电数量服从正态分布,那么反卷积是干啥的呢这些分散后的带电粒子进一步进入MS中。

前面所说的带电方式有一个问题,对于蛋白质来说,的确是会带上正电。但是如果样品官能团很容易失去质子(如羧酸、核酸中的羟基、糖),那么我们会使用负离子检测的方式。

Analyzer

Analyzer指质谱仪中用来根据m/z区分离子的部分。有很多不同的手段:

  • Magnetic Sector
  • Quadrupole 四级杆
  • Ion Trap 离子阱
  • ToF 飞行时间
  • FTICR 傅里叶变换回旋共振
  • Orbitrap

MS Analyzer1

MS Analyzer2

比较上来看这几种仪器:

  • Quadrupole Analyzer(Q) : Low(1 amu) resolution, fast, relatively cheap
  • Ion Trap Mass Analyzer(QIT) : Fair resolution, all in one mass analyzer
  • Time-of-Flight Analyzer(TOF) : Good resolution, exact mass, fast, no upper m/z limit
  • Orbitraps(Orbi) : High resolution, exact mass, costly

Detector

对于高大上的Orbitraps来说,它既是analyzer又是detecotr。

Microchannel plate 微通道板

微通道板的运作原理与光电倍增管和电子倍增管相似,粒子撞击到侦测器表面,产生了二次电子或光电子;再借由电场加速,使电子再撞击下一个表面,产生多次倍增的二次电子,使讯号放大。这表面是由高电阻的材料构成,为连续式的二次发射极 (dynode)。最后增强的电子讯号通常由一个阳极收集,或是打在磷光屏上显像。

微通道板

Electron Multiplier 电子倍增管

虽然这个东西也出现在了ppt里,但是很难想象能用它来直接检测。我想这只是为了方便理解Microchannel plate是怎么工作的。

image-20200326003421933

Lecture4

outline:

  • DDA
  • SRM/PRM
  • DIA

简单的可以总结如下图:

MS instrument

这部分的内容主要参考:

Camilla Thygesen, Inga Boll, Bente Finsen, Maciej Modzel, Martin R. Larsen. (2018) Characterizing disease-associated changes in post-translational modifications by mass spectrometry. Expert Review of Proteomics 15:3, pages 245-258.

首先是一些词汇

Both targeted and untargeted way:

  • DIA Data-Independent Acquisition
  • DDA Data-dependent Acquisition

DDA 和DIA 都是通过LC-MS/MS(Liquid chromatography–mass spectrometry)对蛋白质酶解的肽段进行质谱分析,然后将质谱分析得到的数据和数据库进行比对还原蛋白信息。不同之处在于其数据采集模式。

DDA每次扫描周期内只采集丰度最高的10-20母离子信号的子离子碎片,其余信号的子离子信息丢失,而DDA是在每个扫描周期内,将质量区间设置为多个区段窗口,每次采集窗口内的所有母离子及碎片信号。

classical targeted MS-approaches

  • SRM Selected Reaction Monitoring

    连续质谱中,第一个阶段选择一个特定质量的粒子,然后把这个粒子裂解送到第二阶段。

  • MRM Multiple reaction monitoring

    选择好几个的SRM

  • PRM Parallel Reaction Monitoring

    • QQQ改成了QQ-TOF, 商品名MRMHR==PRMMRM^{HR} ==PRM ?虽然ppt上是这么写的,但是PRM可能是基于orbitrap的。

    相对来说,不是那么经典的方法就是SWATH了。

    然后谈一下这篇文章的主要内容。

背景

精准医学和个性化的治疗需要生物标志物含量的测量来为诊断和用药提供一些辅助。生物标志物包括DNA、RNA、代谢产物和蛋白质,其中蛋白质高度动态具有多样性,更能反映细胞的生理状态,所以尤其适合作为生物标志物。所以需要用到蛋白质组学的方法。

蛋白质组学方法可以大致分为两种:

  • Discovery method
  • Targeting method
    • SRM(<100 proteins per analysis,经典方法,针对已经某些蛋白进行检测)
    • SWATH MS (可以被认为和DIA相同, 得到全部数据之后再进行targeting的分析)

正文节选

我节选了这篇文章中的一部分,这是因为这里我们探讨的主题是蛋白质组学的基本原理。

Clinical need in diagnostics: personalized medicine and unbiased measurements

蛋白质是生命活动的主要承担者,基因到蛋白中间存在着十分复杂的调控过程(并且这些过程我们现在还不是很清楚),所以从人的体液或者组织中分析生物标志物可能会揭示一些与健康状态相关的重要信息。比如说检测是否可能患有乳腺癌就可以检测hEGF receptor2,检测是否患有卵巢癌可以检测CA125。传统的分析手段主要依靠抗体,然后通过免疫组化或者ELISA来分析,这些手段非常依赖于抗体的质量,自动化程度低等等。如果我们能高通量的检测这些生物标记物,显然这对诊疗是个很好的事情。这也就是为什么要用基于质谱的蛋白质组学方法。

\triangleEvolution of MS-based proteomic methods & their promises for clinical research

Shotgun proteomics == discovery proteomics

酶解蛋白质\rightarrowLC-MS/MS in DDA mode\rightarrow选择丰度比较高的肽段作为precursor ions 进行collision-induced dissociation(CID)\rightarrow将碎片送入二级质谱\rightarrow将结果和数据库比对确定肽段的序列。

DDA包含Dynamic exclusion filtering, 排除掉重采样的相同母离子,这会造成同样时间被洗脱的相似大小的母离子被排除掉;另外由于母离子的选择很大程度上随机并且依赖于信号强弱,DDA的结果重复性较差。

为了改善这种重复性问题,新的技术通过选择更精准的质量并且采用time tag strategy改善了这种选择随机性的问题。不选择最大的质量,选择某个特定的质量。他们的区别如下图所示:

Difference Between DDA/SRM

这里面在临床上最常用的就是SRM

SRM (Selected Reaction Monitoring) 通常建立在三联四级杆(QQQ)上,第一级和第三季充当质量过滤器,CID则发生在第二级。

QQQ

SRM较好的重复性让它在鉴定生物标志物方面有重要作用,作为ELISA和IHC的替代品在临床中有所应用。

这里我挺好奇目前国内医院癌标志物等指标的测定用的是什么方法。然后看到了这个文章

Selected reaction monitoring approach for validating peptide biomarkers

Qing Wang, Ming Zhang, Tyler Tomita, Joshua T. Vogelstein, Shibin Zhou, Nickolas Papadopoulos, Kenneth W. Kinzler, Bert Vogelstein

Proc Natl Acad Sci U S A. 2017 Dec 19; 114(51): 13519–13524. Published online 2017 Dec 4. doi: 10.1073/pnas.1712731114

PMCID: PMC5754789

这样来看……似乎现实中已经投入广泛使用的可能性不是很大。

比较SRM和PRM

image-20200326223802070

SRM每次大概能测量最多100个蛋白,为了解决这个问题人们开发出了基于DIASWATH MS

DIA&SWATH

首先要回答的一个问题是为什么需要DIA。前面我们提到DDA.SRM会漏掉一定质量范围的粒子,蛋白质除了种类之外还有许多修饰,如果我们简单的选取最大的或者选取一些,我们会漏掉很多种类的和形式的蛋白。DIA大幅提升了检测的蛋白种类。

我们可以用一张图来表示他们的区别:

Difference DDA/DIA/SRM

从数据的角度上,DDA DIA SRM 的区别如下:

Difference

DIA 不会丢失任何信息,没有通量的上限制,选择性也比较好。另外一个重要的好处是,即使现在我们在数据库中没有一些信息,但是因为DIA把所有的东西都记录下来了,以后我们可以再返回来查。这样我们做一次DIA得到的更像是一个数据库,而不是某个观测值。

从仪器上来说,DIA要复杂一些,这也很好理解,毕竟要检测的东西多了。

DIAinstrument

最后,还要说明一下三个名词:

  • Top-down
  • middle-down
  • Bottom-up

这里的上下指我们分析的是蛋白质还是已经酶解肽段,top-down 能更大程度的保留PTM,但是难度也比较高。

image-20200327001358470

Lecture 5

之前我们谈到的都存在一个数据库,里面有蛋白质信息对应的质谱峰图,lecture5 介绍了蛋白质的从头测序,这个数据库是怎么构建起来的。

对于片段化的多肽离子,如果是从肽键断开的,如果是带有氨基端则命名为bxb_x, 如果是羧基端则命名为yxy_x

Sequencing rules

  1. b离子的质量等于肽链质量+N末端质子(这里提到的C-term N-term都是残基)

    • b1 = N-term aa + 1

    • 最重的b离子比母离子轻{18amu() + C-term aa}

    • 最重的b = precursor ion - y1

  2. y离子的质量等于aa残基+19,即residue+OH+2(NH加一个H,OH加一个质子)

    • y1 = 残基+19、
    • 最大的y离子一般是最大的离子
    • 最大的y离子 = 母离子 - b1
  3. 如果N、C末端有修饰,修饰的质量会进入相应的离子

  4. 等重的氨基酸无法被区分,这主要是:Leu和Ile,Lys和Glu(相近)

  5. 如果蛋白是胰蛋白酶酶解,那么y1要么是147Lys 要么是175Arg(胰蛋白酶选择地水解蛋白质中所有的由赖氨酸Lys或精氨酸Arg的羧基所构成的肽键)

  6. 苯丙氨酸和甲基化的甲硫氨酸质量十分相近

  7. G + G = N, A + G = Q, G + V ~ R, A + D ~ W, S + V ~ W

为什么使用trypsin进行酶解

  1. 消化得到的肽段大小比较合适(2~3kDa)
  2. C端基本就是KR

手动de novo度质谱图

残基质量表

母离子m/z是722.32,2价离子, 2MS如下:

MS result

我的思路基本上是从右边起步,假设1280.57是最大的y粒子,然后挑比较大的峰尝试着跟表上对上往左边推。只看y粒子。最后用KR判断结尾。再通过b粒子验证。

我估摸着应该是Tyr-Ile/Leu-Cys-cm^a-Asp-Asp-Gln-Asp-Thr-Ile/Leu-Lys

然后左边的那个147正好是128+19