亚细胞定位的爱恨情仇:核、质之争
01
背景介绍
1974年,Albert Claude因其在细胞结构和亚细胞结构上的发现和研究获得诺贝尔奖。亚细胞结构是比细胞结构更细化的结构,一般在电子显微镜下才能看见。它们的特点是在细胞内,功能和空间相互隔离,又共同协调维持完整的细胞功能。在一定范围内,亚细胞结构等同于细胞器,不过像细胞膜虽然可以叫亚细胞结构,但不是细胞器。每种亚细胞结构中都存在一组特定的蛋白质,亚细胞结构为这些蛋白质行使功能提供了相对独立的生命活动场所。
亚细胞定位是指某种生物大分子物质或脂类在细胞内的具体存在部位。蛋白质在细胞质中经过翻译并合成,由蛋白质分选信号(Sorting signals)引导而被转运到特定的亚细胞结构中以参与细胞的各种生命活动,这一过程称为蛋白质亚细胞定位。蛋白质的功能、代谢以及相互作用等都与其亚细胞定位密切相关,成熟蛋白质必须在特定的亚细胞结构中才能发挥正确的生物学功能,如果定位发生偏差,将对细胞功能甚至生命产生重大影响,因此对蛋白质亚细胞定位的研究具有重要意义。
蛋白质亚细胞定位研究的技术方法有:
Method 01
融合报告基因定位法
主要指将绿色荧光蛋白(GFP)及其衍生蛋白、β-葡萄糖苷酸酶(GUS)等报告基因,与目标蛋白基因融合在一起,由目标蛋白的引导信号进行亚细胞定位,对报告蛋白的光信号进行跟踪和观察,从而确定目标蛋白的定位。该方法是目前使用最广泛的蛋白质亚细胞定位研究方法。
Method 02
免疫荧光标记定位法
该方法主要将免疫反应与化学光学信号相结合,通过特异性的荧光标记抗体与目标蛋白(抗原)结合,通过荧光信号检测,确定目标蛋白的亚细胞位置。目前抗体标记信号不局限于荧光素,还有同位素、酶、胶体金颗粒、纳米金属颗粒等。
Method 03
亚细胞结构分离定位法
该方法是通过超速离心等技术分离各亚细胞结构,然后从分离物种进一步提取蛋白质,对目标蛋白质进行分析或检测,从而获得目标蛋白的定位。本方法适合研究某蛋白质组级别的细胞器定位,通常与双向凝胶电泳分离和质谱技术相结合。
Method 04
生物信息学预测
这是一种辅助方法,预测结果可以作为参考,但是无法作为事实判断。随着生物大数据的积累和机器学习技术的发展,目前的亚细胞定位预测已经比较准确,而且存在各种物种细分,我们后面会专门用一篇文章介绍蛋白质亚细胞定位预测。
亚细胞定位位置及分布
细胞中的细胞器种类细分有十几种,如果再考虑细胞器的亚结构,那亚细胞结构就有几十种。以植物细胞为例,主要细胞器就有:细胞核、线粒体、内质网、叶绿体、高尔基体、液泡、核糖体、过氧物酶体,更为详细的划分可以参考图2。一般,将真核细胞的亚细胞定位分为11类:细胞骨架(Cytoskeleton)、细胞质基质(Cytosol)、内质网(Endoplasmic)、内体(Endosome)、细胞外间隙(Extracellular space)、高尔基体(Golgi body)、线粒体(Mitochondrion)、细胞核(Nucleus)、过氧化物酶体(Peroxisome)、细胞膜(Plasma membrane)、液泡(Vacuole)[1]。其中,细胞质基质(Cytosol)在很多资料和报道里也被叫做细胞质(Cytoplasm),这可能是一种习惯性叫法,但这是不太严谨的。严格来说,细胞器与细胞质基质、细胞骨架统称为“细胞质”。Sebastian等[2]就把Cytosol更换为Cytoplasm,并且去掉了Cytoskeleton,而添加了溶酶体(Lysosome)或者植物细胞特有的质体(Plastid)。而UniProt就没有严格区分细胞质基质和细胞质,它将“Cytoplasm”定义为包含细胞质基质和细胞骨架,在分类时主要使用Cytoplasm,由此可见这两种叫法都是可以的。
核与质的抉择
根据Binder等[3]和Tanz等[4]的报道,可以看出无论是植物细胞还是动物细胞,定位到细胞核和细胞质基质的蛋白质都是最多的,其次是线粒体、质体、细胞膜。
表1 不同物种细胞蛋白质定位到核或质的比例
那么对于一个蛋白质,到底定位到何种细胞器呢?这取决于蛋白质上的分选信号和被定位细胞器的分选受体。比如,转运肽(分选信号)会被线粒体上的转位因子(分选受体)识别、处理,完成蛋白质定位到线粒体的活动。蛋白质分选信号可以分为两类:一是信号序列(Signal sequence),包括导肽(N端)和信号肽(可在多肽链的任何位置),通常是15-60个氨基酸残基的连续短肽,且完成蛋白质的定向转移后可能被信号肽酶切除。二是信号斑(Signal patch),由位于多肽链不同部位的几个特定氨基酸序列经折叠后形成的斑块区,信号斑是一种三维结构,完成分选任务后仍然存在。
1982年,R. Laskey等[5]发现核内含量丰富的核质蛋白的C端有一个信号序列,可引导蛋白质进入细胞核,称作核定位信号(Nuclear Localization Signal,NLS)。第一个被确定的NLS来自病毒SV40的大T抗原,它在胞质中合成后很快积累在核中,其序列为:PKKKRKV。当然这不是唯一序列,Dingwall等[6]分析了NLS的序列特点,发现一种核心二分NLS结构,即两个碱性氨基酸簇由约9-10个氨基酸间隔开,其基本正则表达式为RP[XXXXXXXXX]KKK,但是仅有这一核心区还不能使外源蛋白定位至细胞核,两端的序列也是必须的。Ray等[7]比较了SV40大T抗原、NLP(AVKRPAATKKAGQAKKKKLD)、EGL-13(MSRRRKANPTKLSENAKKLAKEVEN)、c-Myc(PAAKRVKLD)和TUS蛋白(KLKIKRPVK)的核定位效率,结果发现,与SV40相比,c-Myc的NLS的核定位效率明显更高。与核定位信号相对应的是核输出信号(Nuclear Export Signal,NES),一般是由四个疏水氨基酸残基组成的肽段,能将蛋白从细胞核通过核孔复合体运输到细胞质。Wen等[8]报导了一个NES,可触发cAPK-PKI复合物从细胞核中快速输出到细胞质,其信号序列为:LALKLAGLDI。NLS是判断一个蛋白质是否定位到细胞核的重要标志,而含NES的蛋白可能存在核与基质两种定位。
此外,蛋白质在细胞质中合成,而复制、转录等遗传活动又在细胞核中进行,核与基质之间存在大量的蛋白质交换活动。这些蛋白质入核又出核,并不是分选信号这么简单。G?rlich等[9]在报道中详细介绍了蛋白质在核与质之间穿梭的机理,感兴趣的同学可以去仔细了解一下(这是一篇高引论文,非常值得读一读)。
最后,关于蛋白质的NLS分析,这里提供4个比较流行的预测网站,可以帮助大家预测和分析核定位结果:
1. NLSdb[10]:
https://rostlab.org/services/nlsdb/,输入序列后会输出一个表格,包括不同方法预测的结果,使用起来十分简洁,具体使用方法及结果解释可参考其文献。
2. NucPred[11]:
https://nucpred.bioinfo.se/cgi-bin/single.cgi,本网站提供预测的得分和NLS在序列上的可视化位置,得分越高可信度越高。
3. INSP[12]:
http://www.csbio.sjtu.edu.cn/bioinf/INSP/,上海交大模式识别与生物信息学研究组开发的亚细胞预测工具集之一,使用三种不同的算法模型预测,以邮件发送预测结果。
4. SeqNLS[13]:
http://mleg.cse.sc.edu/seqNLS/,可以指定过滤阈值,给出阈值以上的可能序列和得分,得分越高越可靠。
多重定位的纠缠
一个蛋白质定位到2个及以上的亚细胞结构上,在蛋白质亚细胞定位研究中非常常见,部分“活跃”的蛋白甚至可以在5-6个亚细胞结构间穿梭。其中,最为常见的就是额外定位到细胞质基质或细胞核,而且经常发生的是预期定位到核的蛋白,还会观察到基质的定位,或者反之。这令研究人员十分苦恼,实验结果明明没有问题,但又不好解释,可能还会被审稿人质疑。
诚然,不同的实验方法对多重定位结果有一定影响,在Tanz等[4]的报道中,免疫荧光(IF)验证的定位中,额外定位到细胞骨架的蛋白质的数量是荧光蛋白融合(FP)方法的2倍,而FP检测到额外定位到胞外的情况又显著多于IF。但有60%的蛋白存在多重定位的情况,并且这些蛋白都经过FP和IF的双重验证的,可以排除抗体交叉反应,荧光蛋白干扰或者人工误差的可能。
蛋白质的分选信号可能有多种定位功能,因此会出现多重定位的情况,尤其是含有多重跨膜区的蛋白,可以在多种细胞器膜间穿梭。我们会在后面专门写一篇“诸膜之战”的文章介绍。但是,在分选信号决定的位置之外的额外定位,原因又是多方面的,蛋白质表达的时空变化,细胞结构的动态变化,刺激诱导的转移效应,蛋白质修饰及相互作用,细胞周期的依赖性等,这提醒我们,单次静态图像无法捕捉完整的亚细胞定位活动,可以多时段采集结果,甚至多次重复验证。
细胞核和细胞质基质双定位是纠纷最多的点,如果双定位被质疑或者与同类蛋白的报道不一致,怎么解决或解释呢?
1. 实验上,如果有条件,尽量采取2种及以上的方式去验证,设置平行实验,排除验证方法及人为因素的影响。
2. 尽量获得动态结果,比如分为不同时段观察定位结果、采用不同宿主物种来重复实验。由于蛋白质亚细胞定位的一个决定性因素是宿主细胞器的分选受体,异源表达目标蛋白时,因此宿主分选受体的差异导致的定位偏差是有可能的。
3. 如果实验确定双定位结果无误,可以从蛋白质互作的角度去解释,一般互作的蛋白应该处于同一亚细胞位置,如果已知互作蛋白定位于核,那么目标蛋白可能定位到核也可能是双定位,反之亦然。Shin等[14]的报道中,有大量这样的实例,记录于文章补充材料3中,可以作为解释证据。如果想要通过实验验证,可以敲除或干扰互作蛋白的表达,再在缺失宿主中重新亚细胞定位,还可以同时转入互作蛋白的抑制蛋白,再进行亚细胞定位分析。
4. 基于生信预测,分析NLS与NES的可能性,含有弱NLS或NES信号的蛋白可能因为只能部分入核或出核,出现双定位是正常现象。
5. 基于蛋白质序列一致性预测目标蛋白的亚细胞定位,将目标蛋白质在UniProt数据库中进行Blast,序列一致性高(>60%)的蛋白可以作为参比蛋白,如果参比蛋白存在双定位的情况,目标蛋白也可能存在双定位。
References:
[1] Lei X J, Zhao J, Fujita H, et al., Predicting essential proteins based on RNA-Seq, subcellular localization and GO annotation datasets. Knowledge-Based Systems. 2018.
[2] Sebastian B, J?rg R, and Oliver K, YLoc--an interpretable web server for predicting subcellular localization. Nucleic Acids Research. 2010, 38: W497-W502.
[3] Binder J X, Pletscher-Frankild S, Tsafou K, et al., COMPARTMENTS: unification and visualization of protein subcellular localization evidence. Database. 2014.
[4] Tanz S K, Castleden I, Small I D, et al., Fluorescent protein tagging as a tool to define the subcellular distribution of proteins in plants. Frontiers in plant science. 2013, 4: 214.
[5] Dingwall C, Sharnick S V, Laskey R A, A polypeptide domain that specifies migration of nucleoplasmin into the nucleus. Cell. 1982, 30(2): 449-458.
[6] Dingwall C, Robbins J, Dilworth S M, et al., The nucleoplasmin nuclear location sequence is larger and more complex than that of SV-40 large T antigen. J Cell Biol. 1988, 107(3): 841-849.
[7] Ray M, Tang R, Jiang Z, Rotello VM. Quantitative tracking of protein trafficking to the nucleus using cytosolic protein delivery by nanoparticle-stabilized nanocapsules. Bioconjug Chem. 2015, 26(6): 1004-7.
[8] Wen W, Meinkotht J L, Tsien R Y, et al., Identification of a signal for rapid export of proteins from the nucleus. Cell. 1995, 82(3): 463-473.
[9] G?rlich D, Kutay U. Transport between the cell nucleus and the cytoplasm. Annu Rev Cell Dev Biol. 1999, 15: 607-60.
[10] Nair R, Carter P, Rost B. NLSdb: database of nuclear localization signals. Nucleic acids research. 2003, 31(1): 397-399.
[11] Brameier M, Krings A, MacCallum R M. NucPred-predicting nuclear localization of proteins. Bioinformatics. 2007, 23(9): 1159-1160.
[12] Guo Y, Yang Y, Huang Y, et al., Discovering nuclear targeting signal sequence through protein language learning and multivariate analysis. Analytical biochemistry. 2020, 591: 113565.
[13] Lin J, Hu J. SeqNLS: nuclear localization signal prediction based on frequent pat