利用一種名為FLSHclust(“flash clust”)的新算法,研究人員在數十億蛋白質序列中發現了188種罕見的和以前未知的crispr相關基因模塊——包括一種新的VII型CRISPR-Cas系統。該方法及其發現為利用CRISPR系統和理解微生物蛋白質的巨大功能多樣性提供了新的機會。
CRISPR系統已被用于開發越來越多的新型生物分子方法,包括CRISPR/ cas介導的基因組編輯。以前未知的CRISPR系統的發現有可能導致這些生物技術的進一步發展,包括更安全和更有效的基因組治療。通過對蛋白質序列數據庫的計算搜索,CRISPR工具箱得到了擴展。
然而,通常使用的算法方法對于挖掘包含數十億蛋白質的指數增長數據集已經變得不切實際。為了解決這一限制,Han Altae-Tran及其同事開發了FLSHclust(快速基于位置敏感散列的聚類)——一種通過序列相似性對蛋白質進行聚類的算法,與目前可用的方法不同,它可以快速有效地分析大量的蛋白質序列數據庫。
為了評估他們的方法,Altae-Tran等人使用FLSHclust在包含80億個蛋白質和1020萬個CRISPR陣列的8.8個堿基對宏基因組數據庫中搜索罕見的CRISPR系統。該分析發現了188個以前未知的crispr相關基因。
作者還鑒定并表征了一類新的含有CRISPR系統的cas14, VII型,它作用于RNA。根據研究結果,新發現的系統是罕見的,并且許多只包含FLSHclust揭示的近13萬個crispr鏈接簇中的一個簇。
Altae-Tran等人寫道:“以前未知的cas基因和CRISPR系統的發現極大地擴展了已知的CRISPR多樣性,強調了CRISPR功能的多功能性,即以前未發現的蛋白質和結構域經常被招募,要么取代先前存在的成分,要么將新識別的功能賦予先前存在的cas蛋白支架。”
“總的來說,這項工作的結果揭示了CRISPR系統前所未有的組織和功能靈活性和模塊化,但也表明大多數變體是罕見的,只在相對不尋常的細菌和古細菌中發現。”
文章標題
Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering
(文章來源:www.ebiotrade.com/newsf/2023-11) |