近日,上海交通大學生命科學技術學院陳海峰教授課題組與馮雁教授課題組合作在中科院Top期刊《Briefings in Bioinformatics》在線發表題為Graphormer Supervised De Novo Protein Design Method and Function Validation的研究成果,該研究開發了一種原創而高效的全新蛋白序列設計方法GPD,該方法與當前的SOTA方法proteinMPNN相比,序列多樣性顯著更高,生成速度快2.2倍,能夠顯著提升工業酶及蛋白質藥物的從頭設計能力。生命科學技術學院本科生穆俊羲為第一作者,博士生李政新、本科生張博、博士生張琦為共同第一作者,生命科學技術學院陳海峰教授、馮雁教授以及魏婷助理研究員為共同通訊作者。
蛋白質設計是幾乎所有蛋白質工程問題的核心,因為它可以實現具有全新生物學功能的蛋白質的創造,并能夠提高酶的催化效率等。蛋白質設計的一個關鍵問題是固定骨架的蛋白質序列設計,它旨在設計新的序列以符合預定的蛋白質骨架結構。然而,現有的序列設計方法存在多種局限性,如序列多樣性低和設計的功能性蛋白質的實驗驗證不足,嚴重阻礙了功能性蛋白質設計。

圖1. GPD的模型架構和輸入特征
為了改進這些限制,陳海峰組開發了基于Graphormer的蛋白質設計(GPD)模型。該模型利用Transformer進行基于圖的3D蛋白質結構表示,結合高斯噪聲和序列隨機掩碼融入節點特征,從而增強了序列設計質量。陳海峰組利用GPD設計了CalB水解酶,并生成了九條人工設計的CalB蛋白。結果顯示,與野生型CalB相比,設計序列的催化活性提高了1.7倍,并且在不同碳鏈長度(C2-C16)的p-硝基苯酚醋酸酯上表現出強烈的底物選擇性。

圖2. GPD的序列設計質量評估
陳海峰課題組首先評估了GPD的序列設計質量,發現其能夠設計生成更合理的蛋白序列,并且保有較高的序列多樣性,同時多數設計的序列都能夠在結構預測模型中折疊為所需的結構。圖2中展示了GPD在序列可折疊性、序列同源性,以及序列多樣性方面總體優于現有模型。

圖4. GPD在CALB設計上的應用及驗證
然后陳海峰組與馮雁組合作,將GPD應用到南極假絲酵母酯水解酶(CALB)的重設計上,圖3展示了設計的結果:設計并篩選了9條序列,其中便有一條酶活達到原來的1.7倍。實驗的結果說明GPD的設計具有合理性,同時效率高于之前的理性設計或定向進化方法。
此外,對于多個底物的酶活測試發現GPD設計的序列均具有很高的底物特異性,這對于CALB酶的工業應用也具有一定的意義。因此,GPD方法可用于工業酶和蛋白質藥物的人工智能全新設計,為新質生產力的快速發展奠定方法學基礎。
該研究獲得國家重點研發計劃(2020YFA0907700與2023YFF1205102)、中央高?;究蒲袠I務費專項資金(YG2023LC03)以及國家自然科學基金面上項目(21977068與32171242)的資助。同時感謝上海交通大學超算中心提供的計算平臺支持。
論文鏈接:https://doi.org/10.1093/bib/bbae135
|