還記得之前的文章介紹英國(guó)生物樣本庫(kù)uk biobank在對(duì)其招募的50萬(wàn)名志愿者進(jìn)行全基因組測(cè)序嗎?由英國(guó)研究與創(chuàng)新(UKRI)、惠康信托基金和制藥公司安進(jìn)、阿斯利康、葛蘭素史克和強(qiáng)生公司資助了該計(jì)劃,在惠康基金會(huì)Sanger研究所和deCODE genetics 進(jìn)行了UKB的全基因組測(cè)序。
今天的nature文章發(fā)表了UKB 50萬(wàn)人全基因組測(cè)序分析的第一個(gè)版本,包含了UKB中150,119 個(gè)基因組的序列。這是對(duì)單個(gè)群體基因組序列多樣性的最廣泛分析。
我們知道,要了解人類基因組序列的多樣性如何影響包括健康在內(nèi)的表型特征,就需要對(duì)遺傳和表型變異進(jìn)行詳細(xì)分析。在過(guò)去的十年中,從大量人口研究中獲得了對(duì)這種關(guān)系的見解。UKB包含來(lái)自英國(guó)各地的50萬(wàn)人的深入表型信息。以前對(duì)生物庫(kù)的一些研究集中在單核苷酸多態(tài)性(SNP) 上,但 SNP 陣列通常只捕獲基因組中常見變異的一小部分。隨后進(jìn)行的全外顯子組測(cè)序(WES)也僅限于蛋白質(zhì)編碼區(qū),僅揭示一小部分 (2-3%) 的序列變異。WES 數(shù)據(jù)也遺漏了編碼外顯子之外的遺傳變異,而大量證據(jù)表明這些變異卻可能具有重要的生物學(xué)功能。因此,UKB全員的全基因組序列將為研究這種多樣性如何影響人類疾病和其他特征提供一個(gè)獨(dú)特的機(jī)會(huì)。
文章表征了一組廣泛的變異類型:SNP、插入和缺失(indel)、微衛(wèi)星重復(fù)以及結(jié)構(gòu)變異。deCODE genetics的團(tuán)隊(duì)發(fā)現(xiàn)了這些變異類別中的每一個(gè)都在表型變異中起作用的例子,并且發(fā)現(xiàn)WES 遺漏了許多功能上重要的變異。通過(guò)WGS識(shí)別出的變異比相同樣本W(wǎng)ES 數(shù)據(jù)識(shí)別出的變異多 40 倍。WES確實(shí)不是完整的外顯子組,因?yàn)樗e(cuò)過(guò)了大多數(shù)轉(zhuǎn)錄但未翻譯的變異,甚至錯(cuò)過(guò)了10% 的翻譯變異。https://decode.com/summarydata/提供了關(guān)聯(lián)數(shù)據(jù);而通過(guò)https://decaf.decode.com可獲取變異等位基因頻率。
deCAF 截圖,提供了供公眾使用的變異等位基因頻率資源
文章發(fā)現(xiàn)了許多與 SNP 和indel的關(guān)聯(lián),包括迄今為止發(fā)現(xiàn)的GWAS 研究中與身高、少女的第一次月經(jīng)來(lái)潮年齡的最大影響關(guān)聯(lián)。還發(fā)現(xiàn)了許多與SV 和微衛(wèi)星的關(guān)聯(lián),包括影響膽固醇水平的PCSK9 第一個(gè)外顯子的 14kb 缺失、ALB啟動(dòng)子的4kb 缺失和完全去除與甘氨酸水平相關(guān)的 GCSH 的2 個(gè)外顯子的16kb缺失。
這一大組變異使作者能夠通過(guò)其稱之為耗盡等級(jí) (DR) 分?jǐn)?shù)的度量來(lái)表征群體內(nèi)的序列保守性——自然選擇維持序列的程度。DR分?jǐn)?shù)是識(shí)別具有重要功能的基因組區(qū)域的重要資源。DR分析表明,編碼外顯子僅代表基因組中受強(qiáng)序列保守性影響的一小部分區(qū)域。在GWAS 中發(fā)現(xiàn)的大多數(shù)變異都是非編碼的,而全基因組 DR 評(píng)分使得能夠確定這些非編碼變異中的哪些位于保守區(qū)域。現(xiàn)在可以開始表征重要的非編碼功能區(qū),無(wú)疑是令人興奮的。
英國(guó)人口的遺傳血統(tǒng)是多樣化的,包括出生在全球各地的人。文章能夠根據(jù)遺傳血統(tǒng)在UKB中定義三個(gè)隊(duì)列:一個(gè)大型的英國(guó)-愛爾蘭隊(duì)列和較小的非洲和南亞隊(duì)列。非洲和南亞的隊(duì)列各包含9,000 多人,代表了這些祖源的最大的可用全基因組序列集。這些數(shù)據(jù)對(duì)識(shí)別與疾病和其他特征有關(guān)的變異會(huì)很有價(jià)值。
當(dāng)然,文章也討論了一些后續(xù)努力的方向,如文章中使用的WGS 技術(shù)還是會(huì)遺漏一些變異,包括一些重復(fù)區(qū)域和最近才被人類基因組組裝捕獲的區(qū)域。此外,繼續(xù)努力為UKB的所有50萬(wàn)名參與者完成WGS并進(jìn)一步豐富表型數(shù)據(jù),這有望大大增加我們對(duì)非編碼基因組功能的理解。然而,UKB絕大多數(shù)包含的還是來(lái)自英國(guó)和愛爾蘭血統(tǒng)的個(gè)人的數(shù)據(jù),因此對(duì)世界各地的不同人群進(jìn)行同樣詳細(xì)的WGS 和分析也同樣重要。
參考文獻(xiàn):
https://nature.com/articles/s41586-022-04965-x
https://www.nature.com/articles/d41586-022-01984-6
聲明:
以上只代表個(gè)人的觀點(diǎn),不包含任何投資建議;本人與文中所提及的公司無(wú)任何利益往來(lái);文中信息不當(dāng)或不準(zhǔn)確的地方,歡迎留言或私信指正。文中圖片來(lái)自于公開渠道可獲取的資料,若侵權(quán)請(qǐng)聯(lián)系刪除。