在蛋白质序列中搜索磷酸化模体
问题描述
序列功能模体(sequence functional motif)被定义为能行使功能的短氨基酸或核昔酸序列,含有一个或多个残基的功能区(个人认为可能就是所谓的motif)。磷酸化位点、甘露糖基化位点、识别模体、 糖基化位点、 转录结合位点等都是功能性模体的典型范例。 序列功能性模体可以用一种称为正则表达式的特殊符号表示。正则表达式(regular expression)有时也称为regexp,是能代表一组字符串的字符串语法,由字符以及元字符组成。换句话说,如果读者想用一串字符表达几个字符串,就有必要引入新的规则,使得可以允许"多元"含义存在,如通配符、重复字符或逻辑组。
一个经常在生物学中使用的例子就是 DNA 序列字符 N。 序列 AGNNT 可能是 AGAAT, AGCTT, AGGGT,或许多其他的可能性之一。 正则表达式以类似的方式工作,但使用更复 杂的特殊字符集。
假设想通过单一的表达方式表示以下肤字符串 : "AFL", "GFI", "AYI" , "GWI", "GFI" , "AWI", "GWL", "GYL"。 如果使用一个象征的表示符号,如"[AG]"来表明在某 个字符串的位置可能出现"A"或"G" ,就可以使用表达式"[AG][FYW] [ILJ"代表上述所有 的肤。 注意,我们使用的不是字面意义上的"["和"]",而是一种"元"的含义。在这种情况下, "["和"]"称为元字符。 通过使用字符和元字符编码一组字符串的表达,就称为正则表达式。
另一个例子是功能性模体表达,通常比较短,还可能包含不变位置和可变位置。 例如, 一个丝氨酸/苏氨酸磷酸化模体可以表示为[ST]Q。 当进行蛋白质序列检索时,这种表达方 式将能够匹配出两种不同的序列结果 : "SQ"和 "TQ"。 该模体的第一个位置是可变的,而第二个位置是保守的。 有几种公共开源资源致力于功能性模体(如 ELM:http://elm.eu.org以及 PROSITE:http://prosite.expasy.org/等)。 搜索一套蛋白质序列或者一组序列中是否存在功能性模体,可以进而推断蛋白质的功能。 这正是如 ScanProsite(http://prosite.expasy.org/scanprosite/)做的。 下一篇文章将讲解一个程序,用于模拟ScanProsite 的功能之一; 即该程序将在蛋白质序列中搜索磷酸化模体,并返回第一个出现的模体。
作者:天明豆豆
链接:https://www.jianshu.com/p/bd7e0cc59283
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。