根據密歇根大學研究人員的一項新研究,一種使用簡單、成本效益高的實驗和機器學習模型的蛋白質工程方法可以預測哪些蛋白質對特定目的有效。
該方法在組裝蛋白質和多肽方面具有深遠的潛力,可用于從工業工具到治療方法的應用。例如,這項技術可以幫助加速穩定肽的開發,以目前的藥物無法做到的方式治療疾病,包括改善免疫治療中抗體與靶標的排他性結合。
“控制蛋白質如何工作的規則,從序列到結構再到功能,是如此復雜。為蛋白質工程的可解釋性做出貢獻尤其令人興奮,”這項研究的第一作者馬歇爾·凱斯說。
目前,大多數蛋白質工程實驗使用復雜的、勞動密集型的方法和昂貴的儀器來獲得非常精確的數據。漫長的過程限制了可以獲得的數據量,而復雜的方法對學習和執行來說是具有挑戰性的——這是精度的權衡。
“我們的方法表明,在許多應用中,你可以避免這些復雜的方法,”凱斯說。
更新的方法首先將細胞分為兩組,稱為二元分選,基于它們是否表達所需的特征-如與熒光分子的結合-或不。然后,對細胞進行測序,以獲得感興趣的蛋白質的潛在DNA代碼。然后,機器學習算法會減少測序數據中的噪音,從而識別出最好的蛋白質。
密歇根大學化學工程副教授、論文通訊作者格雷格·瑟伯(Greg Thurber)說:“與其從圖書館中選擇‘最好的書’,不如讀很多書,然后把不同故事的不同頁面拼湊在一起,盡可能找到最好的書,即使它不在你原來的圖書館里。”“我很驚訝地看到,使用簡單的二進制排序數據,這種技術的穩健性。”
該方法使用線性機器學習模型進一步增強了其可訪問性,與具有數十個參數的模型相比,線性機器學習模型更容易解釋。
凱斯說:“因為我們可以了解蛋白質實際工作的物理規則,我們可以使用線性方程來模擬非線性蛋白質行為,從而制造出更好的藥物。”
這項研究是在高級基因組學核心、結構生物學中心、生物質譜設備和蛋白質組學與肽合成核心進行的。
(文章來源:www.ebiotrade.com/newsf/2024-3) |