基因組測序?
不少人對這個名字還有些陌生,但早在30多年前,,人類基因組測序計劃就已經(jīng)成為破譯人類遺傳密碼的大科學工程,,并與曼哈頓原子彈計劃、阿波羅登月計劃并稱為“20世紀人類三大科學計劃”,。
所謂基因組測序,就是一種新型基因檢測技術(shù),能夠從血液或唾液中分析測定基因全序列,,鎖定個人病變基因,提前預防和治療,。多年前,,蘋果公司創(chuàng)始人史蒂夫·喬布斯在確診胰腺癌后,,曾花費10萬美元進行個人基因組測序,引發(fā)公眾關注,。
如今科技發(fā)展日新月異,,完成一個人的全基因組測序,已經(jīng)是普通實驗室甚至家庭都可以負擔得起的“平常事”,。以當下火熱的第三代測序為例,,完成個人全基因組測序僅需1天時間,有的費用已經(jīng)低于5萬元,。
不過,,第三代測序技術(shù)也面臨著一個尷尬困境:要完成這樣數(shù)據(jù)規(guī)模的全基因組組裝分析,需要消耗50萬個CPU小時,,只能在超大計算機集群上進行,。這種情況下,同時對大量個體的全基因組進行組裝分析,,是難以想象的,。
以全基因組組裝方式對群體進行測序分析,成為生物和醫(yī)學研究的趨勢,。生物信息學領域的科學家們,,也致力于改變這種數(shù)據(jù)產(chǎn)出速度高于數(shù)據(jù)分析速度的尷尬狀況,不斷開發(fā)出更高效的組裝分析算法,。
如今,,中國農(nóng)業(yè)科學院農(nóng)業(yè)基因組研究所博士阮玨與美國哈佛大學醫(yī)學院博士李恒合作,研發(fā)出第一個能夠跟上基因組測序產(chǎn)生速度的組裝算法——Wtdbg,。
國際學術(shù)期刊《自然—方法學》(Nature Methods)近日刊發(fā)了這一成果的論文,,其中提到,這一算法極大提高三代測序數(shù)據(jù)的分析效率,,與今年4月科學家研發(fā)的Flye算法相比,,分析速度提升了5倍,并首次將測序數(shù)據(jù)分析時間降低到少于測序數(shù)據(jù)產(chǎn)出時間,。
據(jù)阮玨介紹,,Wtdbg算法的開發(fā)得益于一個新的組裝圖理論的提出,將測序數(shù)據(jù)切分為固定長度的短串,,再從短串構(gòu)建出的圖上恢復出全基因組序列,。
“由于第二代測序錯誤率低,大部分短串是正確的,,相同的短串間可以利用德布魯因圖的原理合并起來構(gòu)成組裝圖,。”阮玨說,突破性的方法基于突破性的理論基礎,。
從2013年開始,,阮玨和李恒著手解決第三代測序組裝的問題,隨后在德布魯因圖基礎上,,設計出一個新的組裝圖理論——模糊布魯因圖,。
“我們重新定義了‘短串’,新設計的模糊布魯因圖能夠容忍高噪聲數(shù)據(jù),,并隨后對生成組裝圖與恢復基因組序列做了大量相應的重構(gòu),,使其兼具高效率和高容錯的優(yōu)點?!比瞰k說,。
2016年,這一研究成果開始對所有人免費開放使用,,不僅被幾十篇學術(shù)論文引用,,還被國內(nèi)多家基因測序分析公司作為主要組裝分析工具,并且在2019年世界大學生超算競賽中做為性能測試賽題,。
阮玨說,,這一研究成果表明我國在基因組算法領域具有了引領國際的實力,也代表了我國科技發(fā)展的軟實力,。有了這個更快的全基因組組裝方式,,也將有更多的人從中受益,比如,,像史蒂夫·喬布斯那樣做一個基因組測序,。(記者 邱晨輝)