“蛋白质结构预测不是一个新的领域,学术界已经做了50多年了,一直没有突破性成果,为什么谷歌旗下的DeepMind公司做到了?”10月31日,在世界顶尖科学家生命科学3.0与交叉研究论坛期间,复旦大学复杂体系多尺度研究院院长在接受澎湃新闻(www.thepaper.cn)记者采访时表示,对这一问题的思考对我们非常有启发意义。马剑鹏曾在哈佛大学师从2013年诺贝尔化学奖获得者Martin Karplus 教授及 1976年诺贝尔化学奖获得者William Lipscomb 教授进行博士后研究。2000年起加入世界著名的美国贝勒(Baylor)医学院和莱斯(Rice)大学任职,为终身教授。
2018年起,马剑鹏加盟复旦大学,作为上海市高峰人才引进团队的核心成员,和诺贝尔化学奖得主迈克尔·莱维特(Michael Levitt)教授一起建设复杂体系多尺度研究院,并担任该研究院院长。因在计算生物学和结构生物学领域的重要贡献,马剑鹏于2004年获Norman Hackerman化学研究奖。
蛋白质是生命的物质基础,每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构。科学界采用了多种技术手段破解这种结构,通常需要花很长的时间,甚至难以完成。近几年最热的就是冷冻电镜技术,该技术也于2017年获得诺贝尔化学奖。
然而,截至目前,约有10万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数10亿计的蛋白质中只占了很小一部分。能否根据已知的氨基酸序列直接预测出蛋白质结构?50多年前开始,科学家们就在为此努力。
曾经开发出Alphago、战胜人类顶尖棋手的DeepMind团队在近两年获得了重大进展。2020年12月1日,DeepMind团队在两年一度的权威蛋白质结构预测评估竞赛(CASP)中用AlphaFold2击败其他参赛团队。预测的大部分结构达到了空前的准确度,不仅与实验方法不相上下,还远超解析新蛋白质结构的其他方法。
“我认为这件事情对我们国家是非常有启发意义的。有些工作一定要集中优势兵力共同作战,也可以说是科学问题工程化,AlphaFold是非常典型的例子之一,当然也有一些问题需要靠科学家个人去发挥他们的创造性。”马剑鹏对澎湃新闻记者谈到,虽然AlphaFold在蛋白质结构预测方面做出了巨大的进步,“但往前走还是有很长的距离,所以我们还得赶超。”
除了近年来技术的进步外,马剑鹏尤其强调资源的集中,“DeepMind是谷歌旗下的公司,作为一家公司,他们在这件事情上投了很多钱,如果你光看这件事情或许是亏钱的,但是公司的好处就是可以组织一个很大的团队去做一件事情。学术界虽然有所谓的很多人在从事这方面研究,但其实大多都处于竞争状态。”他补充说,公司的资源并不一定比学术界多,但的确比学术界集中,所以他们真的把这件事情做成了。
另外值得一提的是,北京时间7月15日,DeepMind团队在顶级学术期刊《自然》(Nature)在线发表了一篇题为“Highly accurate protein structure prediction with AlphaFold”的论文,全面详述了2020年底造成轰动的模型,并首次对外分享开源代码。
“有人在说AlphaFold开源了,我们国家不用搞了,这是大错特错。”马剑鹏解释,“第一,他们所谓的开源只是表层结构开源了,底层技术没有开源。第二,你把它拿来你只能做他们的东西,你没有办法提高,就像航空发动机你买来可以,你能往前在进一步吗?不可能。”
他甚至认为,对于国家来说,这是核心卡脖子技术之一。“我们必须从核心算法等底层技术做起,这也是我们现在重中之重的工作。”据介绍,复旦大学复杂体系多尺度研究院在蛋白质结构预测领域近期也取得突破,其自主研发的opus-fold软件在蛋白质侧链结构的预测精度上,超越了DeepMind的AlphaFold2,相关论文目前处于审稿阶段。
“研究院刚成立的时候还不是全部集中在计算生物学,但现在比重调过来了。我觉得现在计算生物学的势头很强,而且这也是我们的强项。在全国的高校中有很多人做冷冻电镜研究,我们不是唯一的一家,但是算法是我们最大的强项。”马剑鹏表示。
热门