天天速看:人工智能技术可从零开始生成原始蛋白质

来源:cnBeta

研究人员已经开发了一个人工智能系统,可以从头开始生成人工酶。在实验室实验中,其中一些酶表现出与天然酶相媲美的功效,即使其人工创造的氨基酸序列大大偏离了任何已知的天然蛋白质。

该实验表明,最初为阅读和写作语言文本而创建的自然语言处理人工智能可以掌握生物学的某些基本概念。这个被称为ProGen的AI程序是由Salesforce Research开发的,它采用了下标预测法,从氨基酸序列中构建人工蛋白质。

科学家们说,这项新技术可能会变得比定向进化(诺贝尔奖得主的蛋白质设计技术)更强大,它将通过加快开发新的蛋白质来为有50年历史的蛋白质工程领域注入活力,这些蛋白质几乎可以用于从治疗药物到降解塑料的任何用途。


(资料图片仅供参考)

加州大学旧金山分校药学院生物工程和治疗科学教授詹姆斯-弗雷泽博士说:"人工设计的性能比受进化过程启发的设计好得多,"他是这项工作的作者之一,该论文最近发表在《自然-生物技术》上。该论文的前一个版本自2021年7月以来一直在预印本服务器BiorXiv上提供,在那里获得了几十次引用,然后才发表在同行评议的期刊上。

"语言模型正在学习进化的各个方面,但它与正常的进化过程不同,"弗雷泽说。"我们现在有能力调整这些属性的生成,以达到特定的效果。例如,一种热稳定性极强的酶或喜欢酸性环境或不会与其他蛋白质相互作用的酶。"

为了创建这个模型,科学家们只是将2.8亿种不同的蛋白质的氨基酸序列输入机器学习模型,并让它消化了几周的信息。然后,他们用五个溶菌酶家族的56000个序列以及关于这些蛋白质的一些背景信息对该模型进行了微调。

该模型迅速生成了一百万个序列,研究小组根据它们与天然蛋白质序列的相似程度,以及人工智能蛋白质的基础氨基酸"语法"和"语义"的自然程度,选择了100个进行测试。

在这第一批由Tierra Biosciences公司进行体外筛选的100种蛋白质中,研究小组制作了五种人工蛋白质在细胞中进行测试,并将其活性与鸡蛋白中发现的一种酶进行比较,这种酶被称为鸡蛋白溶菌酶(HEWL)。在人类的眼泪、唾液和牛奶中也有类似的溶菌酶,它们在那里抵御细菌和真菌。

其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列彼此之间只有大约18%的相同。这两个序列与任何已知的蛋白质都有大约90%和70%的相同。

一个天然蛋白质只要有一个突变就能使其停止工作,但在另一轮筛选中,研究小组发现人工智能生成的酶显示出活性,即使其序列中只有31.4%与任何已知的天然蛋白质相似。

人工智能甚至能够学习酶的形状,仅仅通过研究原始序列数据。通过X射线晶体学测量,人造蛋白质的原子结构看起来和它们应该的一样,尽管其序列是以前从未见过的。

Salesforce Research在2020年开发了ProGen,基于他们的研究人员最初开发的一种用于生成英语文本的自然语言编程。他们从以前的工作中知道,人工智能系统可以教自己语法和单词的含义,以及其他使写作有条理的基本规则。

"当你用大量数据训练基于序列的模型时,它们在学习结构和规则方面真的很强大,"Salesforce Research的人工智能研究主任、该论文的资深作者Nikhil Naik博士说。"它们可以学习哪些词可以共同出现,也可以学习构成性。"

对于蛋白质,设计的选择几乎是无限的。就蛋白质而言,溶酶很小,最多有大约300个氨基酸。但是有20个可能的氨基酸,就有大量的(20300)可能的组合。这比古往今来的所有人类,乘以地球上的沙粒数量,再乘以宇宙中的原子数量还要多。

考虑到无限的可能性,该模型能够如此容易地产生工作的酶,这一点非常了不起。

Profluent Bio公司的创始人、前Salesforce Research公司的研究科学家、该论文的第一作者Ali Madani博士说:"从零开始生成功能性蛋白质的能力表明,我们正在进入一个蛋白质设计的新时代。"这是一个可供蛋白质工程师使用的多功能新工具,我们期待着看到治疗性应用"。

完整的作者和资助名单请见该论文。论文中描述的方法的综合代码库可在https://github.com/salesforce/progen上公开获取。

关键词: 人工智能 生物技术 Salesforce 詹姆斯弗雷泽

推荐

直播更多》

关闭

资讯更多》

焦点