由德克薩斯大學西南醫學中心的研究人員領導的一個研究小組開發了深度學習模型,以確定一套控制啟動子活動的簡單規則-啟動子是DNA的區域,啟動基因產生蛋白質的過程。他們的研究結果發表在《Science》雜志上,可以讓我們更好地理解啟動子是如何在健康和疾病中促進基因調控的。
“盡管啟動子對每個基因的功能都至關重要,但盡管幾十年的研究已經定義了它們的許多特征,但我們對這些遺傳元件如何運作的理解是不完整的。我們的研究揭示了這些序列如何在人類和其他哺乳動物中發揮作用,”德克薩斯大學西南分校Lyda Hill生物信息系助理教授Jian Zhou博士說。Jian Zhou博士與第一作者、研究生Kseniia Dudnyk和德克薩斯大學西南分校兒童醫學中心研究所的前研究員Jian Xu博士共同領導了這項研究。
細胞用來進行活動的蛋白質的產生始于一個被稱為轉錄的過程。當RNA聚合酶蛋白附著在DNA鏈上并將編碼信息復制或轉錄到RNA分子中時,就會發生這種情況。RNA聚合酶附著開始轉錄的區域稱為啟動子。在人類中,啟動子通常由數百個堿基對組成,這些堿基對是構成DNA的單位。盡管研究人員已經確定了一些DNA啟動子區域共享的共同堿基對序列,但這些序列在人類啟動子中通常不存在,這使得DNA序列如何指導轉錄過程的規則不清楚。
Kseniia Dudnyk是德州大學西南分校周實驗室的一名研究生。
為了更好地定義人類的啟動子及其運作方式,研究人員開發了一種機器學習程序,他們將其命名為Puffin。在分析了數以萬計的已知人類啟動子的數據后,該程序確定它們由三種類型的序列模式組成:基序、啟動子和三核苷酸。
Puffin表明,根據這些元素的排列方式,它們可以激活或抑制基因的轉錄。Puffin還可以預測這些元素的排列如何指導RNA聚合酶優先轉錄單鏈DNA或同時轉錄兩條相反方向的DNA。這種雙向轉錄在人類基因中很常見。
該程序進一步表明,小鼠和其他哺乳動物在控制啟動子操作方面具有相似的規則集。此外,Puffin還允許研究人員預測如果啟動子發生突變,轉錄是否會發生以及如何發生,這一發現與實驗結果非常吻合。
該研究的作者認為,Puffin可以幫助他們了解啟動子如何在健康細胞中起作用,以及啟動子中與疾病相關的改變如何導致基因轉錄的變化。這個程序可以在一個免費的web服務器上獲得,以便其他研究人員可以測試任何感興趣的啟動子序列。他們補充說,使用類似的機器學習方法可以深入了解基因組的其他方面,這些方面仍然沒有得到很好的理解。
(文章來源:www.ebiotrade.com/newsf/2024-5) |