一種能說蛋白質語言的人工智能(AI)模型——迄今為止為生物學開發的最大的模型之一——已被用于創造新的熒光分子。
本月,EvolutionaryScale在紐約市宣布了原理驗證演示,同時還獲得了1.42億美元的新資金,用于將其模型應用于藥物開發、可持續性和其他追求。該公司由曾在科技巨頭Meta工作的科學家創辦,是一個日益擁擠的領域的最新進入者,該領域正在將語言和圖像訓練的尖端機器學習模型應用于生物數據。
該公司首席科學家Alex Rives曾參與Meta將人工智能應用于生物數據的工作,他表示:“我們希望開發出能夠讓生物學可編程的工具。”
EvolutionaryScale公司的人工智能工具ESM3被稱為蛋白質語言模型。它接受了超過27億個蛋白質序列和結構以及這些蛋白質功能信息的訓練。該模型可用于根據用戶提供的規格創建蛋白質,類似于ChatGPT等聊天機器人吐出的文本。
威斯康星大學麥迪遜分校(University of Wisconsin-Madison)的計算生物學家Anthony Gitter表示:“這將成為生物學中每個人都關注的人工智能模型之一。”
Rives和他的同事們曾在Meta研究ESM模型的早期迭代,但在去年Meta結束了在這一領域的工作后,他們開始了自己的研究。他們之前使用ESM-2模型創建了一個免費的數據庫,其中包含6億個預測的蛋白質結構。此后,其他團隊使用ESM-1版本設計了具有更好的抗病原體活性的抗體,包括SARS-CoV-2,并重新設計了“抗CRISPR”蛋白質,以提高基因編輯工具的效率。
今年,位于加州伯克利的另一家生物人工智能公司Profluent利用自己的蛋白質語言模型創造了新的受CRISPR啟發的基因編輯蛋白質,并免費提供了一種這樣的分子。
為了展示其最新的模型,Rives的團隊開始對另一種生物技術的主力進行徹底檢查:綠色熒光蛋白(GFP),它吸收藍光并發出綠光。研究人員在20世紀60年代從生物發光水母Aequorea victoria中分離出綠色熒光蛋白。后來的工作——隨著這一發現,獲得了諾貝爾獎——展示了綠色熒光蛋白是如何在顯微鏡下標記其他蛋白質的,解釋了其熒光的分子基礎,并開發出了這種蛋白質的合成版本,這種蛋白質發出的光更明亮,顏色也不同。
研究人員已經發現了其他類似形狀的熒光蛋白,它們都共享一個被桶狀支架包圍的吸光和發光的“發色團”核心。Rives的團隊要求ESM3創造出含有GFP發色團中發現的一組關鍵氨基酸的GFP樣蛋白質的例子。
研究人員合成了88種最有前途的設計,并測量了它們的熒光能力。大多數都是無用的,但有一種設計,與已知的熒光蛋白不同,發出微弱的光——比自然形式的綠色熒光蛋白弱約50倍。以這種分子的序列為起點,研究人員要求ESM3改進其工作。當研究人員制作了大約100個最終設計時,有幾個和天然的GFP一樣明亮,但仍然比實驗室設計的變體暗淡得多。
其中一種最亮的esm3設計的蛋白質,被稱為esmGFP,預計具有與天然熒光蛋白相似的結構。然而,它的氨基酸序列差異很大,與訓練數據集中最密切相關的熒光蛋白序列匹配不到60%。在bioRxiv4服務器上發布的預印本中,Rives和他的同事們說,根據自然突變率,這種水平的序列差異相當于“超過5億年的進化”。
這種比較對描述尖端人工智能模型的產品沒有幫助,而且可能具有誤導性。“當你想到人工智能和加速進化時,這聽起來很可怕,”Gitter說。“我覺得過度宣傳模特的工作可能會傷害這個領域,對公眾來說也可能是危險的。
ESM3通過各種序列的迭代產生新的蛋白質,類似于進化。Rives補充說:“我們認為,大自然需要什么才能產生這樣的東西,這是一個有趣的觀點。”
風險閾值
根據2023年的一項總統行政命令,ESM-3是首批在培訓期間使用足夠計算能力的生物人工智能模型之一,要求開發人員通知美國政府并報告風險緩解措施。EvolutionaryScale 公司表示,他們已經與美國科技政策辦公室取得了聯系。
超過這個閾值的ESM3版本——包含近1000億個參數,或模型用來表示序列之間關系的變量——尚未公開。對于較小的開源版本,某些序列,例如來自病毒和美國政府令人擔憂的病原體和毒素清單的序列,被排除在培訓之外??茖W家在任何地方都可以下載并獨立運行的ESM3-open也不能被提示生成這種蛋白質。
瑞士洛桑聯邦理工學院(Swiss Federal Institute of Technology)的結構生物學家Martin Pacesa對開始與ESM3合作感到興奮。他指出,這是第一個允許研究人員使用自然語言描述其特性和功能來指定設計的生物模型之一,他渴望看到這個和其他特征在實驗中是如何表現的。
Pacesa印象深刻的是,EvolutionaryScale發布了一個開源版本的ESM3,并清楚地描述了最大的版本是如何訓練的。但他說,最大的模型需要大量的計算資源才能獨立開發。“沒有一個學術實驗室能夠復制它。”
Rives渴望將ESM-3應用到其他設計中。Pacesa是使用一種不同的蛋白質語言模型來制造新的CRISPR蛋白質的團隊的一員,他說,看看ESM-3如何做到這一點將是很有趣的。Rives設想在可持續性方面的應用——他們網站上的一個視頻展示了可食用塑料酶的設計——以及抗體和其他基于蛋白質的藥物的開發。他說:“這確實是一個前沿模式。”
(文章來源:www.ebiotrade.com/newsf/2024-7/20240709071122401.htm) |