首页 资讯头条科技资讯正文

Salesforce的ProGen训练了2.8亿个氨基酸序列,以学习生成蛋白质

2020-04-30_192148.jpg

本周,Salesforce的一组科学家发表了一项研究,详细介绍了AI系统ProGen,他们说该系统能够以“可控制的方式”生成蛋白质,从而可以解锁蛋白质工程的新方法。如果他们的主张获得支持,这将为合成生物学和材料科学的有意义的进步奠定基础-在毁灭性冠状病毒爆发中,这是非常可取的结果。

正如Salesforce研究科学家Ali Madani在博客文章中所解释的那样,蛋白质就是简单的分子链-氨基酸-结合在一起。大约有20种标准氨基酸,它们彼此相互作用并局部形成构成二级结构的形状。这些形状继续折叠成称为三维结构的完整三维结构。从那里,蛋白质与其他蛋白质或分子相互作用,并执行各种功能,从运送氧气到人体周围的细胞到调节血糖水平。

然后,对ProGen(具有12亿个参数(即定义问题技能的值)的AI模型)进行了微调以学习蛋白质的语言。给定所需的蛋白质特性,例如分子功能或细胞成分,它可以准确地创建或生成可行的序列。

这种技术不同于DeepMind的AlphaFold技术,后者估算氨基酸对及其角度之间的距离,并使用估算值生成蛋白质片段,即MIT CSAIL的系统,该系统学会预测相似的蛋白质结构可能来自蛋白质对的可能性。及其序列的嵌入(即数学表示)。相比之下,ProGen从自然语言的角度着眼于蛋白质的产生:它将氨基酸视为段落中的单词(在这种情况下为蛋白质)。

 

2020-04-30_192219.jpg

Madani和ProGen背后的其他团队在超过2.8亿个蛋白质序列和相关元数据的数据集上对模型进行了训练,这是最大的公开数据。他们将样品配制成超过100,000个条件标签,以便ProGen可以了解通过进化选择的天然蛋白质的分布。基本上,该模型会提取每个训练样本,并针对每个氨基酸制定一个猜测游戏;对于多轮训练,给定较短的蛋白质序列,它试图从先前的氨基酸预测下一个氨基酸。

ProGen完成了超过1万亿次的“游戏”,此后,它便能够生成具有前所未有序列的蛋白质。

在一项实验中,研究人员要求ProGen复制蛋白VEGFR2,该蛋白负责细胞增殖,存活,迁移和分化等生物学过程。在测试时,他们向模型提供了VEGFR2的开始部分以及相关的条件标签,并要求其生成其余序列。令人印象深刻的是,ProGen产生的部分保持了蛋白质的结构,暗示它产生了功能性蛋白质。

在第二项测试中,该团队试图通过实验验证的标记数据来证明ProGen的能力。饲养了一个包含超过150,000个蛋白G结构域B1变体的主体-该蛋白对纯化,固定和检测中和病毒和细菌的抗体很重要-ProGen设法鉴定出具有高适应性值的蛋白,这与产生功能性蛋白质的特性。

重要的是,该团队在两个实验中证明了ProGen的序列处于松弛的低能状态。这与稳定性相关-高能态对应于想要“爆炸”的蛋白质,表明序列不正确。

 

2020-04-30_192312.jpg

“ ProGen样品总体上显示出较低的能量,而没有二级结构的氨基酸的能量最高。这表明ProGen学会了对蛋白质最重要的结构区段进行优先排序,” Madani在博客文章中写道。“这背后的直觉是,ProGen学会了流利的功能蛋白语言,因为它已经对通过进化选择的蛋白进行了培训。如果给定未知序列,ProGen可以识别该序列是否是功能蛋白,这是一致的。”

将来,研究人员打算通过磨练特定的蛋白质特性来提高ProGen产生新蛋白质的能力,无论是自然界中未发现的还是不存在的。Madani继续说道:“我们的梦想是通过使用AI使蛋白质工程学达到新的高度。” “如果我们拥有一种能够为我们说蛋白质语言的工具,并且能够可控地产生新的功能蛋白质,那么它将对科学进步,疾病治愈和地球清洁产生革命性的影响。”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

Copyright © 2020 未知资讯 特别赞助:智慧城市 群晖NAS 苏ICP备19070053号-2