研究完整人類基因組的DNA堿基,以字母A、T、C和G為代表(來(lái)源:NHGRI)
歷時(shí)22年,研究人員終于從頭到尾破譯了完整的人類基因組序列。
鈦媒體App 4月1日消息,據(jù)科技日?qǐng)?bào),全球頂級(jí)期刊《Science》(科學(xué))雜志今天凌晨連發(fā)6篇論文報(bào)告,公布了人類基因組測(cè)序的最新進(jìn)展:國(guó)家人類基因組研究中心(NHGRI)組成的端粒到端粒 (T2T) 聯(lián)盟科學(xué)團(tuán)隊(duì),通過(guò)新的技術(shù)研究出全球第一個(gè)完整的、無(wú)間隙的人類基因組序列,首次揭示了高度相同的節(jié)段重復(fù)基因組區(qū)域及其在人類基因組中的變異。
這是對(duì)標(biāo)準(zhǔn)人類參考基因組,即2013年發(fā)布的參考基因組序列(GRCh38)的“重大升級(jí)”,增加了之前整條染色體上隱藏的DNA片段,破譯了缺失的大約2億個(gè)DNA堿基對(duì)以及2000多個(gè)新基因——占人類基因組的8%。
這篇研究成果意義重大??蒲腥藛T揭示的完整人類基因組序列,是世界上最復(fù)雜的謎題之一,這一研究使得人類第一次看到最完整的、無(wú)間隙的DNA堿基基因序列,對(duì)于人類了解基因組變異的全譜,以及某些疾病的遺傳貢獻(xiàn)至關(guān)重要,將會(huì)推動(dòng)與癌癥、出生缺陷和衰老相關(guān)的研究與科學(xué)發(fā)展。
同時(shí),這也是《Science》創(chuàng)刊141年來(lái),首次在同一期雜志中連發(fā)6篇論文揭示人類基因組研究。
本論文作者,圣路易斯華盛頓大學(xué)醫(yī)學(xué)院遺傳學(xué)家Ting Wang(音譯:王庭)表示,此次擁有完整的基因組,一定會(huì)改善生物醫(yī)學(xué)研究?!昂翢o(wú)疑問(wèn),這是一項(xiàng)重要的成就?!?/p>
據(jù)中國(guó)科學(xué)報(bào),人類基因組計(jì)劃參與者、中國(guó)科學(xué)院北京基因組研究所研究員于軍表示,假如把人類基因組序列比作一輛非常復(fù)雜的汽車,那么與20年前完成的人類基因組草圖相比,完整的新序列相當(dāng)于增添了更多零件。
“我們看到了以前從未閱讀過(guò)的章節(jié),”本論文通訊作者,華盛頓大學(xué)霍華德-休斯醫(yī)學(xué)研究所(HHMI)研究員Evan Eichler(艾希勒)表示,這是全行業(yè)的一件大事。
Science封面圖
研究人員到底破譯了什么?人類基因組由超過(guò)60億個(gè)獨(dú)立的DNA堿基、大約2-3萬(wàn)個(gè)蛋白質(zhì)編碼基因(整個(gè)基因仍未有統(tǒng)一答案)組成,與黑猩猩等其他靈長(zhǎng)類動(dòng)物的數(shù)量差不多,分布在23對(duì)染色體上。為了讀取數(shù)以萬(wàn)計(jì)的基因組,科學(xué)家們首先將所有的DNA鏈切成幾百到幾千個(gè)單位長(zhǎng)度的DNA片段。然后用測(cè)序機(jī)器讀取每個(gè)片段中的各個(gè)堿基,科學(xué)家們?cè)噲D按照正確的順序組裝這些片段,就像拼湊一個(gè)復(fù)雜的拼圖。
2001年2月12日,由6國(guó)科學(xué)家共同參與的國(guó)際人類基因組計(jì)劃首次公布人類基因組圖譜及初步分析結(jié)果;2003年4月15日,公布了人類基因組序列草圖。
然而,由于技術(shù)限制,當(dāng)初的人類基因組計(jì)劃留下了大約8%的“空白”間隙。這部分很難被測(cè)序,由高度重復(fù)、復(fù)雜的DNA塊組成,其中包含功能基因以及位于染色體中間和末端的著絲粒和端粒。
實(shí)際上,核心的挑戰(zhàn)在于,基因組的某些區(qū)域反復(fù)重復(fù)相同的堿基。重復(fù)的區(qū)域包括著絲粒和核糖體DNA等,過(guò)去無(wú)法按照正確的順序組裝一些被切碎的片段。這就像擁有相同的拼圖碎片一樣,科學(xué)家們不知道哪塊碎片在哪里,因此基因組圖中留下了很大的空白。
而且大多數(shù)細(xì)胞包含兩個(gè)基因組–一個(gè)來(lái)自父親,一個(gè)來(lái)自母親。當(dāng)研究人員試圖組裝所有的片段時(shí),來(lái)自父母雙方的序列可能混合在一起,掩蓋了個(gè)體基因組內(nèi)的實(shí)際變異。
如今,研究人員通過(guò)新的納米機(jī)器設(shè)備與核心技術(shù),實(shí)現(xiàn)了新的無(wú)間隙版本T2T-CHM13,由30.55億個(gè)堿基對(duì)和19969個(gè)蛋白質(zhì)編碼基因組成。增加了近2億個(gè)堿基對(duì)的新DNA序列,包括99個(gè)可能編碼蛋白質(zhì)的基因和其中近2000個(gè)需要進(jìn)一步研究的候選基因。
這些候選基因大多數(shù)是失活的,但其中115個(gè)仍然可能表達(dá)。團(tuán)隊(duì)還在人類基因組中發(fā)現(xiàn)了大約200萬(wàn)個(gè)額外的變異,其中622個(gè)出現(xiàn)在與醫(yī)學(xué)相關(guān)的基因中。此外,新序列還糾正了GRCh38中的數(shù)千個(gè)結(jié)構(gòu)錯(cuò)誤。
近端著絲粒染色體的顯示圖樣(來(lái)源:論文)
具體而言,新序列填補(bǔ)的空白包括人類5條染色體的整個(gè)短臂,并覆蓋了基因組中一些最復(fù)雜的區(qū)域。其中包括在重要的染色體結(jié)構(gòu)中及其周圍發(fā)現(xiàn)的高度重復(fù)的DNA序列,如染色體末端的端粒和在細(xì)胞分裂過(guò)程中協(xié)調(diào)復(fù)制染色體分離的著絲粒。
此外,新序列還揭示了以前未被發(fā)現(xiàn)的節(jié)段重復(fù),即在基因組中復(fù)制的長(zhǎng)DNA片段,并揭示了關(guān)于著絲粒周圍區(qū)域的前所未見的細(xì)節(jié)。這一區(qū)域內(nèi)的變異性可能為人類祖先如何進(jìn)化提供新證據(jù)。
值得一提的是,本研究成果的關(guān)鍵進(jìn)展,其實(shí)是利用了新的技術(shù)設(shè)備——英國(guó)牛津納米孔技術(shù)公司和太平洋生物科學(xué)公司制造的快速迭代的基因測(cè)序機(jī)器。
早在2017年,國(guó)家人類基因組研究中心(NHGRI)負(fù)責(zé)人Adam Phillippy(亞當(dāng)·菲利皮),以及加州大學(xué)圣克魯茲分校(UCSC)的凱倫·米加意識(shí)到,新的納米孔機(jī)器實(shí)現(xiàn)了一次準(zhǔn)確讀取100萬(wàn)個(gè)DNA堿基的能力,可以為最終解決基因組難點(diǎn)打開了大門。
大約在同一時(shí)間,華盛頓大學(xué)霍華德-休斯醫(yī)學(xué)研究所(HHMI)Evan Eichler(艾希勒)領(lǐng)導(dǎo)的科研團(tuán)隊(duì)已經(jīng)證明,使用太平洋生物科學(xué)公司的設(shè)備技術(shù),可以解決更復(fù)雜形式的遺傳變異技術(shù)。
因此,三人一起創(chuàng)辦了端粒到端粒(T2T)聯(lián)盟,利用全球約100名科學(xué)家團(tuán)隊(duì)資源,使其加快了研究佳偶。
隨后,該團(tuán)隊(duì)連續(xù)六個(gè)月不間斷地利用快速迭代的納米孔基因測(cè)序機(jī)器,并請(qǐng)來(lái)幾十位科學(xué)家來(lái)組裝這些基因片段并分析結(jié)果。最終利用設(shè)備、技術(shù)等,實(shí)現(xiàn)了長(zhǎng)讀數(shù)測(cè)序讀數(shù),并將長(zhǎng)讀測(cè)序與牛津納米孔的數(shù)據(jù)相結(jié)合,準(zhǔn)確率超過(guò)了99%,填補(bǔ)了全球基因?qū)W研究的空白。
一直到2020年夏天,該團(tuán)隊(duì)已經(jīng)拼上了兩條染色體。在新冠疫情爆發(fā)的期間,團(tuán)隊(duì)通過(guò)Slack等通訊工具進(jìn)行遠(yuǎn)程工作,獲得了另外21條染色體,將每個(gè)染色體從一端或端粒排序到另一端。而且,科研人員人員還試圖組裝基因組中最難的區(qū)域,即著絲粒中高度重復(fù)的DNA序列。
最終,通過(guò)長(zhǎng)時(shí)間的研究與團(tuán)隊(duì)合作,該團(tuán)隊(duì)成功實(shí)現(xiàn)了對(duì)每個(gè)染色體進(jìn)行了測(cè)序,包含了編碼用于制造核糖體的RNA的基因的多個(gè)拷貝,總共400個(gè)。
2021年6月,這份研究成果首次發(fā)表在預(yù)印版平臺(tái)bioRxiv上。經(jīng)過(guò)同行評(píng)議等,如今一系列論文登上了《Science》(科學(xué))雜志。
研究人員在會(huì)后采訪中表示,下一階段的研究將對(duì)不同人的基因組進(jìn)行測(cè)序,以充分掌握人類基因的多樣性、作用以及人類與近親、其它靈長(zhǎng)類動(dòng)物的關(guān)系。
年增速超20%,中國(guó)百億基因市場(chǎng)前景廣闊隨著生物學(xué)技術(shù)的不斷發(fā)展,新的行業(yè)層出不窮,本次研究成果所屬的中國(guó)基因測(cè)序行業(yè)是一個(gè)百億級(jí)市場(chǎng),擁有廣闊的發(fā)展前景。
根據(jù)千際投行的研究統(tǒng)計(jì)數(shù)據(jù)顯示,早在2019年,基因測(cè)序所在的全球生物制品行業(yè)市場(chǎng)規(guī)模就達(dá)到了3172億元,未來(lái)五年有望達(dá)到萬(wàn)億級(jí)別。其中,2019年中國(guó)基因測(cè)序行業(yè)市場(chǎng)規(guī)模約為149億元,年增速超20%。
近年來(lái),基因測(cè)序行業(yè)得到迅速發(fā)展,吸引了大量資本和企業(yè)的進(jìn)入。從產(chǎn)業(yè)上下游來(lái)看,基因測(cè)序產(chǎn)業(yè)鏈主要包括了上游儀器、中游服務(wù)提供商以及下游終端應(yīng)用三個(gè)環(huán)節(jié)。涉及到的公司包括華大基因、達(dá)安基因、藥明康德,以及互聯(lián)網(wǎng)巨頭蘋果公司、亞馬遜、谷歌、微軟等。
整個(gè)產(chǎn)業(yè)看似簡(jiǎn)單,但上游的基因測(cè)序儀及配套試劑是整個(gè)產(chǎn)業(yè)鏈壁壘最高的部分,下游終端應(yīng)用還涉及領(lǐng)域覆蓋面非常廣,既包括醫(yī)療領(lǐng)域的人體基因組、人體微生物基因組以及基礎(chǔ)研究領(lǐng)域,還包括非醫(yī)療領(lǐng)域的環(huán)境治理、石油存儲(chǔ)探測(cè)、農(nóng)牧業(yè)配種等。
實(shí)際上,早在幾十年前,醫(yī)學(xué)界就對(duì)此有過(guò)嘗試,將狒狒的心臟移植給了一個(gè)罹患先天性心臟病的孩子。如今,通過(guò)嵌合的方式,通過(guò)基因編輯的方式,甚至是通過(guò)合成生物學(xué)的方式,實(shí)現(xiàn)了豬心臟在人類身上的移植。
華大集團(tuán)CEO尹燁曾表示,其實(shí),今天人類進(jìn)入了生命時(shí)代,我們關(guān)心的則是自身的基因和健康,以此就將去整合物理世界、信息世界和生命世界。
在應(yīng)用場(chǎng)景不斷拓寬,測(cè)序能力進(jìn)一步加強(qiáng)的共同促進(jìn)作用下,全球基因測(cè)序行業(yè)市場(chǎng)規(guī)模將不斷增長(zhǎng),中國(guó)基因行業(yè)市場(chǎng)規(guī)模雖然與全球頭部企業(yè)差距較大,但是在國(guó)內(nèi)市場(chǎng)中仍然占據(jù)較大的優(yōu)勢(shì),未來(lái)要想提高國(guó)際市場(chǎng)份額,還需進(jìn)一步加強(qiáng)技術(shù)研發(fā),未來(lái)發(fā)展具有巨大的想象空間。
今天,新的基因組序列研究成果,是科研人員必不可少的第一步,也是實(shí)現(xiàn)商業(yè)化的重要一步。
Evan Eichler(艾希勒)表示,“現(xiàn)在我們有了一塊羅塞塔石碑(注:一塊制作于公元前196年的花崗閃長(zhǎng)巖石碑,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu)),可以在未來(lái)研究數(shù)十萬(wàn)個(gè)其他基因組的完整編譯?!?/p>
(本文首發(fā)鈦媒體App,作者|李佳能,編輯|林志佳)