蛋白质组学鉴定分析-Mascot 商业引擎使用介绍

2020年4月7日12:22:19 发表评论 211 views
 蛋白质组学鉴定分析-Mascot 商业引擎使用介绍
信息来源:
(2)Perkins D N. Probability‐based protein identification by searching sequence databases using mass spectrometry data[J]. Electrophoresis, 1999,20(20):3551-3567.
        Mascot由Matrix Science公司开发,是目前蛋白质组学研究中商业应用范围最广的蛋白质/肽段鉴定搜索引擎之一,其主要以搜库形式对多肽和蛋白质进行鉴定。别看此软件发布的期刊影响因子较低且引用次数不高,其在蛋白质组学分析研究中地位目前是扛把子,鉴定结果为业界广泛认可,同时得益于商业化收费支持,Mascot的运行速度和维护均较有保障。目前软件商用主要针对离线版,集非联网情况下的队列式肽段/蛋白质检索,这种方式下必须购买商业授权,但是如果不需要大批量队列搜索,可以直接采用在线免费搜索。Mascot针对在线搜索是全免费的,入口如下:
 
 使用说明:
        目前Mascot支持内容包括肽段指纹谱匹配(Peptide Mass Fingerprint)、序列查询(Sequence Query)和二级谱搜库(MS/MS Ions Search)。以下对上述内容进行分别介绍:
肽段指纹谱匹配(Peptide Mass Fingerprint):对具备一定纯度要求或组成简单的蛋白质采用胰蛋白酶等特性较强的酶进行降解,并采集其一级离子质谱图,因蛋白组成的特异性,将产生具有一定特异性的一级母离子谱,通过对这些母离子谱与蛋白质谱库进行检索从而可实现蛋白质种类的鉴定。这类方法一般主要用与纯化后或组成简单的蛋白质分析,且大多采用MALDI-TOF或其他MALDI离子源高分辨质谱图的分析,以保障分析的准确性与可重现性。采用ESI源高分辨质谱亦可对此类分析展开研究,但可操作性不如前者,主要原因是ESI源质谱易产生多电荷离子簇,增大了搜库的困难程度。
 
序列查询(Sequence Query):此法小编尚未使用过,根据说明理解应该主要是根据一级离子和二级离子部分信息对指定肽段序列/集的检索查询。《期待有更全的解释说明,欢迎大家补充。》
二级谱搜库(MS/MS Ions Search):此法在鸟枪法蛋白质组学研究中应用范围最广,主要是将质谱采集的到的一级和二级离子信息,与蛋白序列库降解后的理论离子信息进行匹配对比,以输出对应肽段及蛋白质鉴定结果。使用参数设置通常如下图一。
蛋白质组学鉴定分析-Mascot 商业引擎使用介绍
图1 mascot 搜库设置截图
重要参数说明:
        Database(s):搜索蛋白序列库对象,从右侧序列库中选择你需要检索的序列库对象至左侧,一般SwissProt(已知且规范的蛋白质序列大库)和当前选择的Contaminants(污染物),如果你需要检索指定库有两种方法,一种是通过下方的的Taxnomy设置SwissProt的种属,这样可以将搜索范围大大减小至你希望检索的物种,另一种方法是,你从Uniprot网站中下载自己想要的蛋白库导入其数据库用于检索(离线版Mascot笔者尝试是支持的而且经常自己导入数据库,但是在线的没试过,如果你有需要可能需要自己尝试,后期本站会介绍如何在离线Mascot中导入本地库);
        Taxnomy:种族设置,可通过限定检索对象缩小数据库中的检索对象,加快分析速度;
        Enzyme:根据自己降解时用的蛋白选择酶制剂,一般常用为胰蛋白酶,具体原因可搜索本站《胰蛋白酶在蛋白质组学研究中的地位》(后期跟进推出),如选择的为广谱性酶制剂或者其他不明情况,请选择None(在SeachGui或者Maxquant中类似,可选无或全蛋白降解);
        Allow up to ()missed cleavages:允许最大酶切位点略过数,可根据需要设置;
        Quantitation:定量方法,可选多同位素、单同位素、非标定量等,小编尚未尝试定量,请大家留言补充了只能,后期小编会跟进推出具体原理解释;
        Crosslinking:交互作用,这个尚未尝试,可能需要更深度专业的认识方能清楚;
        Fixed modification:多肽固定修饰,主要是多肽在水解和处理过程中,为使得某些基团得到有效鉴定或因为确定性反应导致多肽存在确定衍生,此时需设置固定修饰;
        variable modification:多肽可变修饰,主要是多肽在水解和处理过程中,为使得某些基团得到有效鉴定或因为不确定性反应导致多肽存在可能衍生,此时需设置可变修饰。注意可变修饰不要选太多,严重影响鉴定速度;
        Peptide tol.±:重点,一及母离子误差;
        #13 C:此选项主要为补充鉴定碳原子同位素偏移鉴定情况,特定场合使用;
        MS/MS tol.±:二级子离子质量偏差;
        Peptide charge:母离子电荷范围;
        Monoisotopic/Average:计算质量使用方法(单同位素or平均质量),因低分子质量下的肽段离子单同位素质量峰较为靠近离子质荷比最高峰(离子质量数据导出值),建议一般情况选择前者;
        Data file:上传质谱原始数据文件,建议mgf格式,具体导出方法可检索本站《mgf文件导出方法》;
        Data format:数据文件格式,建议选择mascot generic(即mgf),此数据格式文件小,便于传递;
        instrument:根据自己选择的仪器进行选择;
        Precursor:可留空;
        Decoy:此参数主要用于插入部分诱饵序列(通常是将序列反转),以进一步检查鉴定结果准确性;
        Report top:结果报告最高前X个匹配结果;
结果查看:
        将上述参数设置和原始数据载入后即可点击Start Search开始搜库,等待一会后即可得到结果,但其结果可视化通常体验较差(需额外购买Mascot Distiller支持),一般实验室配备的均为网页版,以下为网页版检索结果截图。
蛋白质组学鉴定分析-Mascot 商业引擎使用介绍    图2 mascot检索结果
        基本信息:在图2中左侧顶部,会提示搜索的基本方式、库和结果等信息;
        Mascot Score histgram:鉴定结果分数直方图,左侧斜线部分代表分数低于阈值分数43(注意此值根据数据库大小和质谱数据而改变,不固定)不可信,右侧代表可信(p<0.05)。
        Peptide Summary Report:多肽鉴定报告,可以从下方fomat as中选择protein summary report报告(注意,小编发现此操作有bug,貌似不可逆,慎重选择。);
        Significance threshold p:可信度设置,此为Mascot特有,因mascot的鉴定结果为基于概率计算,因此需设置此项阈值(这也是mascot存在质量歧视的本质原因,肽段越长可信度越高,反之越低),其他软件一般通用采用错误发现率(1%)。
        鉴定列表:首行显示鉴定蛋白的句柄/编号和种属信息,其他结果可从字面意思理解。值得注意的是,如果在Unique下方标注U,则代表该多肽序列为该蛋白质序列特有,对蛋白质鉴定意义较大。
注意:Mascot对蛋白结果存在多重匹配,亦即一个离子匹配结果可能标识于多个蛋白鉴定结果中,在分析时需引起注意,例如下图:
蛋白质组学鉴定分析-Mascot 商业引擎使用介绍图3 鉴定结果中存在重复匹配的情况
     以上为小编根据个人使用经验积累所撰写的Mascot使用介绍,请大家批评指正,多多交流,谢谢!后期将进一步推出相关文章,敬请期待!
  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

您必须才能发表评论!