2015年5月8日讯/生物谷BIOON/ --随着测序技术的飞速发展,大量的基因被揭示,大量的蛋白质序列也得到了解析。然而,这些序列信息还没有被很好的注解。例如,只有不到1%的蛋白质序列有已知的功能。
如果我们能够利用计算生物学的方法,大量注解这些序列信息,就能够积累很多对于蛋白质结构的认识,最终达到从量变到质变的飞跃。
来自美国纽约霍华德医学中心的科学家们讨论了基于蛋白质功能注释结构的新方法。在以前,已有的预测方法都是基于序列的同源性,进化关系和在基因组的位置来预测序列对应的模板及其功能。而对于三维结构信息,在这些预测中使用的很少。
然而这种情况正在改变。得益于日渐成熟强大的同源建模技术,很多未知的蛋白质结构可以得到高可信度的预测。基于模板功能预测的更新,就是建立在这样的同源建模上。从蛋白序列预测结构,再基于结构的相似性找到对应的模板,那么我们就可以由此推测出这个序列可能和模板蛋白有类似的功能。
那么,我们该如何定义结构的相似性?除了蛋白质的二级三级结构的相似性外,还有很多其他方向的相似性可以考虑。例如,很多蛋白质都有结构空腔或者口袋,这些位置可能存在一定保守性。还有,一些化学特性,如蛋白质表面的静电势,也要充分考虑。在数据库中寻找序列的模板时,首先要对序列的相似性,蛋白质全局结构和局部结构构建矩阵进行比对。具体来说就是先将查询序列的建模结构和蛋白质数据库中的蛋白进行重叠,再考虑局部的结构和序列的差异和相似性。这里所考虑的功能的相似性,主要是指有类似的相互作用特性,比如,查询的蛋白和模板都能够和同一种类型的分子结合。
作者们还具体讨论了如何提高蛋白质全局结构和局部区域的相似性。接着他们还叙述了蛋白质家族和模板家族对蛋白质相似性探索的意义。比如,可以构建机器学习模型来寻找不同蛋白质模板家族的不同的结构、理化特性。
最后,作者们总结道,基于结构来注解蛋白质序列的功能主要有两个作用。其一,结构的相似性可能意味着相似的蛋白质结合特性。其二,基于结构的相似性预测能够发现更多的信息,这是序列比对所做不到的。计算生物学的方法能够发掘更多的信息,对未来的生物研究和药物研发有重大意义。(生物谷Bioon.com)
本文系生物谷原创编译整理,欢迎转载!转载请注明来源并附原文链接。更多资讯请下载生物谷APP.