Salesforce的ProGen训练了2.8亿个氨基酸序列，以学习生成蛋白质

未知资讯科技资讯 2020-05-01 06:05:34 1756

本周，Salesforce的一组科学家发表了一项研究，详细介绍了AI系统ProGen，他们说该系统能够以“可控制的方式”生成蛋白质，从而可以解锁蛋白质工程的新方法。如果他们的主张获得支持，这将为合成生物学和材料科学的有意义的进步奠定基础-在毁灭性冠状病毒爆发中，这是非常可取的结果。

正如Salesforce研究科学家Ali Madani在博客文章中所解释的那样，蛋白质就是简单的分子链-氨基酸-结合在一起。大约有20种标准氨基酸，它们彼此相互作用并局部形成构成二级结构的形状。这些形状继续折叠成称为三维结构的完整三维结构。从那里，蛋白质与其他蛋白质或分子相互作用，并执行各种功能，从运送氧气到人体周围的细胞到调节血糖水平。

然后，对ProGen（具有12亿个参数（即定义问题技能的值）的AI模型）进行了微调以学习蛋白质的语言。给定所需的蛋白质特性，例如分子功能或细胞成分，它可以准确地创建或生成可行的序列。

这种技术不同于DeepMind的AlphaFold技术，后者估算氨基酸对及其角度之间的距离，并使用估算值生成蛋白质片段，即MIT CSAIL的系统，该系统学会预测相似的蛋白质结构可能来自蛋白质对的可能性。及其序列的嵌入（即数学表示）。相比之下，ProGen从自然语言的角度着眼于蛋白质的产生：它将氨基酸视为段落中的单词（在这种情况下为蛋白质）。

Madani和ProGen背后的其他团队在超过2.8亿个蛋白质序列和相关元数据的数据集上对模型进行了训练，这是最大的公开数据。他们将样品配制成超过100,000个条件标签，以便ProGen可以了解通过进化选择的天然蛋白质的分布。基本上，该模型会提取每个训练样本，并针对每个氨基酸制定一个猜测游戏；对于多轮训练，给定较短的蛋白质序列，它试图从先前的氨基酸预测下一个氨基酸。

ProGen完成了超过1万亿次的“游戏”，此后，它便能够生成具有前所未有序列的蛋白质。

在一项实验中，研究人员要求ProGen复制蛋白VEGFR2，该蛋白负责细胞增殖，存活，迁移和分化等生物学过程。在测试时，他们向模型提供了VEGFR2的开始部分以及相关的条件标签，并要求其生成其余序列。令人印象深刻的是，ProGen产生的部分保持了蛋白质的结构，暗示它产生了功能性蛋白质。

在第二项测试中，该团队试图通过实验验证的标记数据来证明ProGen的能力。饲养了一个包含超过150,000个蛋白G结构域B1变体的主体-该蛋白对纯化，固定和检测中和病毒和细菌的抗体很重要-ProGen设法鉴定出具有高适应性值的蛋白，这与产生功能性蛋白质的特性。

重要的是，该团队在两个实验中证明了ProGen的序列处于松弛的低能状态。这与稳定性相关-高能态对应于想要“爆炸”的蛋白质，表明序列不正确。

“ ProGen样品总体上显示出较低的能量，而没有二级结构的氨基酸的能量最高。这表明ProGen学会了对蛋白质最重要的结构区段进行优先排序，” Madani在博客文章中写道。“这背后的直觉是，ProGen学会了流利的功能蛋白语言，因为它已经对通过进化选择的蛋白进行了培训。如果给定未知序列，ProGen可以识别该序列是否是功能蛋白，这是一致的。”

将来，研究人员打算通过磨练特定的蛋白质特性来提高ProGen产生新蛋白质的能力，无论是自然界中未发现的还是不存在的。Madani继续说道：“我们的梦想是通过使用AI使蛋白质工程学达到新的高度。” “如果我们拥有一种能够为我们说蛋白质语言的工具，并且能够可控地产生新的功能蛋白质，那么它将对科学进步，疾病治愈和地球清洁产生革命性的影响。”

本文链接：https://www.x0x8.com/tech/125.html