• 周日. 4 月 6th, 2025

海洋资源

ocean-resource.com

海洋研究新革命,人工智能进入蛋白质测序领域

 

 

人工智能已经彻底改变了蛋白质如何折叠成三维形状的研究,这一成就获得了去年的诺贝尔化学奖。现在,人工智能正在改变蛋白质测序——从组成蛋白质的氨基酸序列中识别蛋白质。人工智能通常比传统方法更快,还使研究人员能够对从未见过的蛋白质进行测序,这是医学诊断、环境研究和考古学中的共同挑战。

(图:通过使用人工智能分析质谱仪的数据(如图所示),研究人员希望彻底改变复杂样本(如墓地和海水样本)中的蛋白质鉴定。Lewis Houghton/Science Source)


在最新进展中,欧洲研究人员本周在《自然机器智能》杂志上报告称,一种名为 InstaNova 的人工智能可以识别伤口中的致病蛋白以及海水样本中微生物混合产生的未知蛋白。InstaNova 并不是唯一一家这样做的公司。在过去 4 年里,研究人员已经推出了 20 多个蛋白质测序人工智能。华盛顿大学蛋白质组学人工智能开发人员 William Noble 说:“很明显,这就是该领域的发展方向。”

其他领域的研究人员也渴望应用这些工具。例如,进化生物学家正在利用它们来识别古代蛋白质,这些蛋白质可以揭示现代人类与我们已灭绝的亲属之间的差异。“它已经很有帮助了,”哥本哈根大学的古蛋白质组学专家 Enrico Cappellini 说。“而且它会越来越好。”


蛋白质的世界远比它们的基因蓝图 DNA 和 RNA 复杂得多。例如,人类基因组包含大约 20,000 个基因,但这些基因可以产生 1000 万种不同的蛋白质,因为当 DNA 被复制到 RNA 或 RNA 被翻译成蛋白质时会发生改变,而蛋白质本身可以附加无数的化学修饰。

生物学家传统上通过将蛋白质分解成称为肽的短片段来识别蛋白质,每个肽由 5 到 20 个氨基酸组成。然后,科学家用质谱仪称量这些碎片,将其重量与数十个数据库中已知肽的重量进行匹配以确定其身份,然后将碎片拼凑成完整的分子。

但这种方法存在问题。首先,质谱法发现的肽类化合物中高达 70% 都不在任何数据库中。丹麦技术大学蛋白质组学专家 Timothy Patrick Jenkins 表示:“传统蛋白质组学有点像谷歌搜索。如果数据库中没有该化合物,你就找不到它。”随着肽类化合物数据库的不断扩大,计算机发现匹配项所需的时间也越来越长。


新的人工智能测序仪不会费心在已知肽中寻找匹配项,相反,它们会计算所有可能由给定长度的肽的化学修饰而产生的肽片段的权重。如果人工智能找到与实际样本相匹配的片段,它会尝试将它们组装成全长蛋白质。

为了提高准确性,蛋白质测序人工智能需要接受数百万已知肽及其组装成已知蛋白质的方式的训练。这使人工智能能够学习最常见的氨基酸链组合方式。詹金斯说,这种方法类似于大型语言模型 (LLM)(如 ChatGPT)在大量文本上进行训练以学习语法规则的方式。就像 LLM 了解到“这个男孩弹球”比“男孩弹球”更有可能是一个有效的句子一样,蛋白质组学算法学习一种蛋白质语法,它为给定的一组肽提供最可能的序列。

2021 年,Noble 和他的同事推出了 Casanovo,这是第一个使用深度神经网络的蛋白质测序 AI。在 2024 年发表于《自然通讯》的一篇论文中,Noble 的团队报告称,该 AI 被证明擅长识别训练数据中没有的新型肽序列。额外的实验表明,Casanovo 擅长识别免疫系统攻击癌症时瞄准的细胞表面肽以及海水样本中的未知蛋白质。

现在,詹金斯和他的同事们在这些结果的基础上开发了 InstaNova,它也使用深度学习神经网络。但与之前的 AI 蛋白质测序模型不同,它增加了一种称为扩散的策略,这种方法增强了 DALL-E 等 AI 图像制作模型和 RoseTTAFold 或 AlphaFold 等蛋白质结构模型。扩散模型最初会将随机噪声添加到输入数据中,然后将其移除,以查看该过程如何锐化输出。根据结果,他们会更广泛地应用降噪技术,以进一步锐化结果。在《自然机器智能》论文中,詹金斯和他的同事报告说,在与 Casanovo 的正面交锋测试中,InstaNova 加上一种名为 InstanNova+ 的改进方法,在来自九种生物的实验室蛋白质混合物中发现了 42% 以上的肽。


当该团队将其人工智能应用于现实世界的蛋白质组学挑战时,它发现,除其他结果外,它还确定了 1225 种在感染腿部伤口中血液蛋白白蛋白所特有的肽,比传统数据库搜索多 10 倍。其中 254 种是数据库中没有的新肽。研究人员还将其他肽映射到 52 种细菌蛋白上。这些和其他结果表明,InstaNova“可以分析复杂样本并得出答案”,Atlas Antibodies 的研发主管 Catrine Soiberg 说,Atlas Antibodies 是一家帮助研究人员绘制整个组织中蛋白质图谱的公司。Noble 很早就了解了 InstaNova,并已经对其进行了测试,他称其为“真正的进步”。  

其他人也在尝试。剑桥大学蛋白质组学研究员马修·柯林斯 (Matthew Collins) 最近一直在测试几种 AI 蛋白质测序工具来分析考古样本。在大多数情况下,样本中的蛋白质在地下埋藏了数亿年后发生了广泛的化学变化,或者来自已灭绝的动植物,因此它们不太可能出现在传统的蛋白质和肽数据库中。柯林斯说,这些模型“特别适合混乱的环境,你不知道那里有什么。”

人工智能工具已经帮助他的团队在尼安德特人的遗址中发现了兔子蛋白质的特征,在巴西古代陶罐中发现了鱼肌肉蛋白质的特征。柯林斯说:“这些模型非常有用,我们已经将所有的研究都转向使用它们。在我看来,这是一个重大的改变。”

 

 


来源:doi: 10.1126/science.zf8te2c

 

发表回复