該研究對約50萬人,包括了5個人種的參與者進行了全基因組測序,堪稱人類基因探索的又一里程碑式研究。雖然此研究尚未正式通過同行評審正式發表,但我們也可以通過該預印本先睹為快。
隨著基因測序技術的不斷發展,我們對于基因了解也越來越多。但了解越多,未知的領域也更多展現在人們眼前。為此,UK Biobank在之前的基因分型和全外顯子組測序 (WES) 研究工作的基礎上進行了一個涵蓋近50萬人的超大規模全基因組測序(WGS)工程,也是迄今為止最大規模的涵蓋了5個人種的全基因組測序。研究人員首先通過英國生物樣本庫收集患者樣本,然后進行WGS。對測序結果使用 GraphTyper 和 DRAGEN 數據集進行質量控制,然后對 SNP、in/dels 和結構變體 (SV) 進行變體調用。此后,研究人員定義了與 SV、SNP 和基因水平相關的表型(二元和定量)(罕見變異分析),并得出結論。然后將五個人種——NFE(非芬蘭歐洲人)、SAS(南亞人)、AFR(非洲人)、ASJ(阿什肯納茲猶太人)和EAS(東亞人),和集體關聯效應定義為跨祖先薈萃分析。
研究使用了Illumina因美納NovaSeq™ 6000測序平臺,對490,640名UK Biobank的參與者進行WGS。WGS的平均測序覆蓋深度為32.5倍,并采用了重復樣品作為質量控制。
之后,Illumina因美納 的DRAGEN Bio-IT平臺又成功調用了大量的SNP和indel變異(均處于高準確性范圍),其中,SNP檢測到的靈敏度是99.77%,精度為99.91%;indel靈敏度為99.70%,精度為99.83% 。最后,對WSG測序結果、GraphTyper和DRAGEN系統的變異調用結果執行單變異測試、多祖源meta分析、罕見變異聚合分析和結構變異分析等。
圖1變異類型和頻率的描述
Figure 1由多個子圖組成,涉及到基因組變異的不同類型和頻率分布:
a) 不同群體中各類型變異的密度/數目:這個子圖展示了在五個不同祖先背景的群體中,每個個體識別出的變異數目。具體來說,變異類型包括了SNP(單核苷酸多態性)、indels(插入或缺失變異)、singleton SNPs/indels(僅出現一次的SNP/indels)、結構變異中的插入和重復(insertions/duplications)以及刪除(deletions)。b) 結構變異(SV)的長度分布:此子圖中關注SVs的大小分布,并通過顏色代碼區分不同頻率的變異,其中紅色區域代表變異大小的第25至75百分位數值,直線代表中位數,頂部橫線表示95%置信區間。長度分布顯示了結果趨向于更短的SVs。c) 不同類型SVs數量:這里顯示了按照變異類別(復制、插入、刪除)分類的SV數量。d) 插入和刪除的大小分布:此子圖指明了插入(insertions)和刪除(deletions)的尺寸范圍,從50bp到1,000bp、10,000bp甚至100,000bp的變異大小進行了分類說明。Figure 2描述了如何通過不同樣本量(從1000到490,541)揭示不同等位基因頻率范圍內的變異數。具體地,橫軸表示隨機下采樣分析中的樣本數量,縱軸表示識別出的變異量。從Figure 2可以看出:對于常見變異(如,>1%頻率),即使樣本數量增大,我們也只觀察到了變異數量較小的增加。對于稀有變異(如,<=0.001%頻率),隨著樣本量的增加,變異數量顯著增長,并且在樣本量最大時仍未看到增長平穩,這表明繼續進行大規模測序工作對于發現新的和高影響力的稀有變異具有重要價值。圖3跨祖先的 GWS(全基因組顯著性)關聯的擾亂圖Figure 3是一個UpSet交互圖,常用來展示多個集合之間交集和獨特元素的分布。這里顯示了全基因組顯著性(GWS)關聯的分布情況,包括跨不同祖先(種族群體)的meta-analysis以及特定祖先內的關聯。橫軸標簽按照GWS關聯數量進行排序:meta-analysis、NFE(非芬蘭歐洲人)、SAS(南亞人)、AFR(非洲人)、ASJ(阿什肯納茲猶太人)和EAS(東亞人)。根據Figure 3顯示,最多的GWS關聯發現在非芬蘭歐洲人群體中,緊隨其后的是meta-analysis,這表明某些基因與性狀的關聯橫跨多個種族群體。非歐洲人群中的相對少量GWS發現亦表明研究仍有進一步挖掘這些群體特異性遺傳關聯的空間。Figure 4的左半邊展示了HBB-HBE1與溶血性貧血(D55-59)在非芬蘭歐洲人(NFE)、非洲人(AFR)、南亞人(SAS)中的關聯,右半邊展示了HBB-HBE1與地中海貧血(Thalassaemia, D56)在NFE、AFR、SAS種族中的關聯。Figure 4顯示了針對特定性狀——貧血的關聯信號在不同人群中的分布。圖中突出了某些單核苷酸變異(SNPs),如rs334。該變異是SCD(鐮狀細胞?。┑囊粋€常見原因,并與HBB基因的一個錯義突變有關。這些關聯揭示了基因變異與疾病表型之間的聯系,以及這些關聯如何因不同種族而具有不同的流行病學特征。rs334在非洲人群中較為常見,但在非芬蘭歐洲人和南亞人中較為稀少。研究結果依據不同群體種系特有的基因頻率揭示了天然選擇的痕跡,例如特定基因座的變異對抗瘧疾的保護作用可能導致在某群體中變異頻率較高。rs334還與其他生化指標(如肌酐、尿素)有關聯,與鐮狀細胞病的臨床表象一致。同樣,地中海貧血相關性狀的關聯研究提供了進一步針對基因影響疾病表型的證據。Figure 5描述了在全基因組測序(WGS)和全外顯子測序(WES)數據集中發現攜帶有害變異的基因的數量。pLoF是預測的失功能變異(putative Loss-of-Function variants),P/LP是臨床上認定的致病/可能致病變異(Pathogenic/Likely Pathogenic variants)。橫坐標X軸顯示了參與者的數量,縱坐標Y軸表示具有至少一個特定數量(1,25,50,100)攜帶者的自體染色體基因的數量。Figure 5顯示,WGS檢測到的具有至少100個攜帶有害變異的基因數量超過了WES數據集中的基因數量。Figure 5突出了WGS與WES數據集在揭示有害變異方面的比較,證明了WGS對于發現并理解構成特定遺傳疾病風險的罕見和可能有害的遺傳變異的重要性。通過WGS,我們能夠在更廣泛的基因組區域內發現之前可能在WES中未被檢測到的有害變異,這在病因學研究及潛在的靶向治療中極為重要。Figure 6是一個塌陷分析圖,展示了通過合并分析罕見UTR變異與表型關聯的情況。圖片的上半部分展示了二進制性狀(binary phenotypes)的關聯分析結果,下半部分展示了定量性狀(quantitative traits)的關聯分析結果。不同的顏色代表不同的UTR模型(5’ UTR、3’ UTR和兩者結合),且圖中對P值 < 1e-30的顯著關聯信號進行了標注。Figure 6說明了稀有的UTR變異對于一些生物學性狀和疾病表型確實具有重要的關聯性,在某些情況下,純UTR變異與特定表型的聯合分析可導致新的統計學上顯著關聯。說明UTR變異在轉錄后調控以及相關疾病過程中可能存在重要作用,這些關聯和作用在以前基于WES技術進行的研究中可能被忽視了。對于那些僅在蛋白質編碼區有信號而UTR變異未被考慮的性狀,這一發現意味著應擴大對罕見變異和非編碼區域的探索,以更好地理解疾病機制。
在這個研究中,WGS檢測到約1.5億個變異,包括單核苷酸多態性(SNP)、插入缺失變異(indels)和結構變異(SV),這在觀察到的人類變異中較基因芯片插補和WES增加了18.8倍和40倍以上。相比僅通過WES能發現的變異,WGS能覆蓋更多的蛋白編碼區以及5’ 和3’ 未翻譯區(UTR)序列的變異。大規模的WGS數據帶來了對稀有非編碼變異在健康和疾病中作用的擴展理解潛力,例如:WGS數據顯示,在所有注釋類別中捕獲的變異數量都超過了WES。結構變異(SV)發現,雖然數量少于SNP和indels,但平均影響的堿基對數與SNP和indels相當。通過多祖源meta分析,發現細胞色素C反應蛋白降低與APOE基因突變rs429358-C有關,而通常認為這種突變會增加老年癡呆癥的風險。發現結構變異的檢測能夠揭示基因與性狀之間的新關聯,例如,PCSK9基因中的SV與非高密度脂蛋白膽固醇水平顯著相關。這項研究提升了我們對人類遺傳變異及其疾病發生影響的認識,并將為新的診斷方法、更有效和更安全的療法的發現,以及為可能改善全球健康的精準醫學策略開發打下基礎。此外,這項研究也為探尋“選擇作用”在致病變異和保護性變異塑造人類遺傳多樣性的過程中,扮演了何種角色奠定了研究基礎。UK Biobank這一項目所開展的全基因組測序(WGS)采用了因美納NovaSeq™ 6000測序平臺,測序地點包括冰島deCODE Genetics和英國維康桑格研究所。對此 英國生物樣本庫副首席執行官Mark Effingham博士也曾表示:“如此大規模的全基因組測序對技術的精確度和靈敏度都有著極高的要求。”因美納成為英國生物樣本庫當時首選的技術合作伙伴。此外,同時值得關注的是,該項目的分析亦采用了以高效和準確著稱的因美納DRAGEN Germline分析流程。這一分析流程與其他大規模群體基因組學計劃所采用的分析流程相一致,以便今后對數據進行交叉分析。其他大型群體基因組學計劃包括新加坡國家精準醫學項目PRECISE、英國Genomics England十萬人基因組計劃、由美國國立衛生研究院支持的百萬自然人群隊列研究項目All of Us,以及由Nashville Biosciences牽頭的基因組發現聯盟(Alliance for Genomic Discovery)。 |