一種新的機器學習方法可以幫助科學家更有效地確定在復雜系統(如基因組調節)中實現特定結果的最佳干預措施,所需的實驗試驗比其他方法少得多。
但人體有大約2萬個基因,基因的擾動可能是基因的組合,也可能是調節基因的1000多個轉錄因子中的任何一個。由于搜索空間巨大,基因實驗成本高昂,科學家們常常難以找到適合其特定應用的理想擾動。
麻省理工學院和哈佛大學的研究人員開發了一種新的計算方法,可以根據比傳統方法少得多的實驗數量有效地識別最佳遺傳擾動。
他們的算法技術利用復雜系統中因素之間的因果關系,比如基因組調控,在每一輪連續實驗中優先考慮最佳干預措施。
研究人員進行了嚴格的理論分析,以確定他們的技術確實確定了最佳干預措施。有了這個理論框架,他們將算法應用于模擬細胞重編程實驗的真實生物數據。他們的算法是最有效的。
“很多時候,大規模實驗都是根據經驗設計的。一個仔細的順序實驗因果框架可能允許用更少的試驗確定最佳干預措施,從而降低實驗成本。”資深作者Caroline Uhler說,她是電氣工程和計算機科學系(EECS)教授,也是麻省理工學院和哈佛大學布羅德研究所埃里克和溫迪施密特中心的聯合主任,也是麻省理工學院信息和決策系統實驗室(LIDS)和數據,系統和社會研究所(IDSS)的研究員。
這篇論文發表在《自然機器智能》雜志上。
主動學習
當科學家們試圖為一個復雜的系統設計一種有效的干預措施時,比如在細胞重編程中,他們經常按順序進行實驗。這種設置非常適合使用一種被稱為主動學習的機器學習方法。收集數據樣本并用于學習包含到目前為止收集到的知識的系統模型。從這個模型中,設計了一個獲取函數——一個評估所有潛在干預措施并選擇最佳干預措施在下一次試驗中進行測試的方程。
這一過程不斷重復,直到確定最佳干預措施(或資助后續實驗的資源耗盡)。
Sapsis解釋說:“雖然順序設計實驗有幾種通用的獲取功能,但這些功能對如此復雜的問題無效,導致收斂速度非常慢。”
獲取功能通??紤]因素之間的相關性,例如哪些基因共表達。但只關注相關性忽略了系統的調節關系或因果結構。例如,基因干預只能影響下游基因的表達,但基于相關性的方法將無法區分上游或下游的基因。
“你可以從數據中了解到一些因果知識,并利用它來更有效地設計干預措施”。
麻省理工學院和哈佛大學的研究人員在他們的技術中利用了這種潛在的因果結構。首先,他們精心構建了一個算法,使其只能學習解釋因果關系的系統模型。
然后,研究人員設計了習得函數,這樣它就可以根據這些因果關系的信息自動評估干預措施。他們精心設計了這個功能,使其優先考慮最具信息量的干預措施,即最有可能在隨后的實驗中導致最佳干預措施的干預措施。
“通過考慮因果模型而不是基于相關性的模型,我們已經可以排除某些干預措施。然后,每當你得到新的數據,你就可以學習一個更準確的因果模型,從而進一步縮小干預的空間,”烏勒解釋說。
更小的搜索空間,加上獲取功能對最具信息量的干預的特別關注,使他們的方法如此高效。
受復雜系統中極端事件研究的啟發,研究人員利用一種被稱為輸出加權的技術進一步改進了他們的獲取功能。這種方法謹慎地強調可能更接近最佳干預的干預措施。
Sapsis說:“從本質上講,我們認為最優干預措施是所有可能的‘極端事件’,次優干預措施是我們針對這些問題開發的一些想法。”
提高效率
他們在模擬的細胞重編程實驗中使用真實的生物數據來測試他們的算法。在這項測試中,他們尋找一種基因擾動,這種擾動會導致平均基因表達的預期變化。在多階段實驗的每一步中,他們的習得功能一致地識別出比基線方法更好的干預措施。
“如果你在任何階段切斷實驗,我們的效率仍然會比基線更高。這意味著你可以進行更少的實驗,得到相同或更好的結果。”
研究人員目前正在與實驗學家合作,將他們的技術應用于實驗室的細胞重編程。
他們的方法也可以應用于基因組學以外的問題,比如確定消費品的最佳價格,或者在流體力學應用中實現最佳反饋控制。
在未來,他們計劃增強他們的優化技術,超越那些尋求匹配期望平均值的技術。此外,他們的方法假設科學家已經理解了他們系統中的因果關系,但未來的工作可以探索如何使用人工智能來學習這些信息。
這項工作的部分資金來自海軍研究辦公室、麻省理工學院- ibm沃森人工智能實驗室、麻省理工學院機器學習與健康j診所、布羅德研究所的埃里克和溫迪施密特中心、西蒙斯研究員獎、空軍科學研究辦公室和國家科學基金會研究生獎學金。
(文章來源:www.ebiotrade.com/newsf/2023-10/) |