時間:2020年01月07日 分類:農業(yè)論文 次數:
摘要:自國際千人基因組計劃實施以來,伴隨著測序技術的發(fā)展和成本的下降,幾乎所有重要的動植物都擁有了參考基因組以及全基因組重測序數據。針對二代和三代測序技術產生的海量數據,準確和高效的組裝是獲得高質量基因組的關鍵。對于重復序列較多、雜合性較高的復雜基因組的組裝尤其具有挑戰(zhàn)性,基因組從頭組裝算法不斷被更新,聯合組裝策略正在發(fā)揮強大優(yōu)勢。高質量的基因組不僅能提高精細定位效率,還能提高全基因組關聯分析的準確性和精度,為動植物復雜性狀的遺傳機制解析奠定基礎。同時,高質量的基因組對于比較基因組以及泛基因組的研究都具有重要的推動作用。
關鍵詞:高質量基因組;組裝;變異分析;復雜性狀
相關論文投稿刊物:《基因組學與應用生物學》(ISSN1674-568X,CN45-1369/Q)是由廣西大學主管和主辦,公開發(fā)行的雙月刊科學期刊。自創(chuàng)刊以來,以新觀點、新方法、新材料為主題,堅持"期期精彩、篇篇可讀"的理念。雜志內容詳實、觀點新穎、文章可讀性強、信息量大。因此,該雜志被譽為具有業(yè)內影響力的雜志之一。
高質量的參考基因組在動植物遺傳學和基因組學研究中有著極為重要的作用。解析復雜性狀的遺傳機制,首先需要在全基因組范圍挖掘與該性狀緊密相關的關鍵變異,在尚未實現群體基因組組裝的物種中,變異的檢測都是基于該物種的參考基因組。因此,參考基因組質量的高低決定了變異基因型鑒定的準確性,進而影響對復雜性狀遺傳機制的解析。
高質量參考基因組的獲得需要高深度的測序結果以及合適的組裝算法。相應地,使用準確率高的二代高通量測序數據和讀長超長的三代測序數據進行聯合組裝,可提升基因組組裝的完整性和重復序列組裝的準確性。獲得高質量參考基因組后,針對種內的其他個體,只需進行低深度測序就能準確鑒定相對于參考基因組的變異類型,為數量遺傳學研究提供大量分子標記,并可提高性狀變異位點的定位精度,同時提高了鑒定基因組上結構變異的準確性。
目前針對二代測序技術的重測序數據檢測基因組結構變異的算法不斷被開發(fā)出來,通過收集測序片段比對回參考基因組上的錯配和不恰當比對的信息,就能在一定程度上判斷測序目標相對于參考基因組的插入和缺失的結構變異。隨著基因組學的發(fā)展,獲得一個高質量的基因組難度不斷降低,直接在多個基因組上進行比對,發(fā)現關鍵變異尤其是集中分布的關鍵變異的方法開始被更多地使用。
在此過程中,基因組學的研究范疇不斷延伸。泛基因組成為真正意義上能夠代表整個物種遺傳物質多樣性的“參考基因組”,因此基于群體水平的泛基因組也被越來越多地關注。本文回顧了基因組組裝算法的發(fā)展,重點討論了對于重復序列較多、雜合度較高的基因組組裝新算法,分享了近5年來高質量基因組在動植物遺傳機制解析中的成果,以及在比較基因組和泛基因組研究中的應用。
1基因組的從頭組裝(denovo)算法
隨著測序技術的發(fā)展,不論從技術還是成本上獲得高質量的基因組測序數據都變得具有較高的可行性,對于富集了大量重復序列和高度雜合的玉米[1]和小麥[2]基因組而言,對基因組從頭組裝算法的研究早已是新的挑戰(zhàn)和研究焦點。針對最早的Sanger測序數據,早期開發(fā)的是OLC(overlap-layout-consensus)算法,即尋找兩條Sanger序列之間的重疊區(qū)域并進行拼接。
隨著高通量測序技術的出現,這樣的算法則不再適用,原因是二代測序通量更高但片段更短(通常雙端測序片段長度只有150bp),不能記錄下所有重疊區(qū)域的信息,而且對于復雜基因組而言,尋找短測序片段(read)之間的重疊區(qū)域也更困難和不可靠[3]。在這樣的背景下,針對二代測序數據進行基因組組裝的DBGgraph(de-bruijn-graph)算法應運而生[4]。DBG算法的核心是k-mer,即將所有的短reads打斷為更短的長度為k的序列,兩個相鄰的k-mer相差一個堿基,將一組相鄰k-mer的最后一個堿基(edges)相連即成為一條組裝結果。
K-mer組裝解決了基因組測序覆蓋深度帶來的數據冗余問題,并且從理論上,要獲得組裝結果只需要記錄k-mer之間相連的信息(readpath)。DBG算法相較于OLC不僅能更充分地利用高通量二代測序結果,還極大地減少了運算時間和成本。Soapdenovo[5-6]是利用DBGgraph算法開發(fā)的典型基因組組裝軟件,其組裝過程分為以下四步。
(1)二代測序數據自糾錯,相較于三代數據高達15%~40%的錯誤率,二代數據的準確性仍然具有強大優(yōu)勢[7]。雖然二代數據的錯誤率只有1%~2%,但是對于大型基因組組裝而言,為了達到更準確的組裝效果,正式組裝前需要進行自糾錯。
(2)選取合適的k-mer,組裝contig。K-mer的選取非常重要,k-mer的值過小,不利于構建更長的contig以及利用reads本身的長度跨越一些小片段的重復區(qū)域,但如果k-mer的值過大,則會造成運算時間和消耗內存指數級別的上升。
同時,需要指出的是,為了避免回文序列造成的組裝錯誤,一般不選取偶數k-mer。初步組裝完成的DBGgraph非常粗糙,包含了大量的錯誤和不確定信息,首先要去除一些連接著兩個獨立contig的過短或者覆蓋度過低的中間序列,其次由于基因組本身高度雜合的特性產生的一些相似度很高的中間序列(bubble),將由soapdenovo選擇覆蓋度更高的一條作為代表序列。
(3)組裝scaffold。scaffold的實質是一條更長的,連續(xù)的contig,要達到這樣的組裝級別,只有二代數據是不夠的,還需要插入片段大小(insertsize)更大的matepairreads,以提供錨定的信息,將在物理距離上相隔較遠的數條contig連接在一起,matepairread的insertsize越大,最后能得到的組裝效果也越好。
(4)縮小組裝漏洞。在scaffold組裝完全后,程序會收集一端落在scaffold內部,另一端沒有被錨定的reads,作為修補組裝漏洞的數據。從原則上來講,這樣的操作仍然是在延伸scaffold的長度,以期達到更好的組裝效果。由于Soapdenovo在對亞洲和非洲人基因組組裝中的優(yōu)異表現,這款軟件的核心算法DBG及其運算流程已經成為了組裝大型基因組的代表。
除此之外,還有專門針對高雜合基因組組裝的軟件Platnus[8],其算法重點考慮了雜合基因組本身對基因組組裝帶來的影響,在構建contig的過程中不僅保留了所有相似度高的連接兩個contig的中間序列(bubble),還將這些bubble重新錨定回scaffold上,保留與bubble相連的contig信息作為雜合區(qū)段。從這些軟件的算法和運算流程我們可以看出,完善在復雜基因組中占有相當比例的重復序列的組裝幾乎是所有算法面臨的問題和挑戰(zhàn)[9]。
而三代測序技術(single-molecule,real-timesequencing)的超長讀長,旨在從源頭上解決復雜基因組組裝面對的各種難題。平均10k以上的讀長所帶來的顯著優(yōu)勢是原始reads可以輕易跨越一些中等長度的重復序列區(qū)段,甚至不需要組裝即可獲得完整的基因組序列(這一點已經在轉錄組轉錄本的測序中得到了證明)。也正因為如此,適用于二代測序數據的DBG算法不再適合于三代測序數據,因此OLC算法也再次回到人們的視野中。
早期針對三代組裝開發(fā)的軟件致力于尋找長reads之間的重疊區(qū)段,從而將兩條reads相連。但對于三代測序超長讀長,并且本身攜帶了較高測序錯誤的reads而言,OLC算法的使用面臨兩個挑戰(zhàn):一是用于組裝的reads自糾錯,即使是像HGAP這樣成功的三代組裝軟件也不能回避reads糾錯所帶來的運算時間和內存消耗問題[10];二是由于尋找重疊區(qū)段必須進行多重比對,三代測序的超長讀長帶來的運算負擔相較于一代數據而言早已呈指數級別的增長。
為解決上述問題,出現了DBG和OLC算法聯合組裝的策略[11]。同時對復雜基因組進行二代和三代測序,不僅能在OLC正式組裝前,利用二代數據對三代數據進行高效率的校正,還能在由計算三代reads最佳重疊區(qū)域而得的組裝骨架基礎上,聯合二代數據進行scaffold的延伸和補洞。聯合組裝的策略由于兼具了二代數據的準確性和三代數據的讀長優(yōu)勢,已經被廣泛運用到各類復雜的基因組,尤其是高度重復序列的基因組組裝案例中[1,12]。即使各類算法和軟件開發(fā)飛速發(fā)展,仍然沒有一個大型基因組是完全沒有瑕疵的。雖然現有的高通量測序技術極大地推動了人類對基因組的研究與理解,但對基因組復雜區(qū)域的組裝與研究仍困難重重。
2高質量參考基因組在尋找功能基因和重要
變異位點中的重要作用由于測序技術和組裝算法的改進,出現了越來越多高質量的參考基因組。一些長久以來因為基因區(qū)段或者序列的復雜性而沒有辦法解釋的現象逐步得到了理解,如抗病基因簇[13-14]或者某些具有功能的轉座子[15-16]。一個高質量的參考基因組不僅是了解自然群體變異形式的開端,更是解析功能基因和重要變異位點的前提。
2.1高質量參考基因組提高傳統(tǒng)基因克隆手段——精細定位的效率
精細定位是克隆基因的傳統(tǒng)遺傳學手段之一,通過設計定位標記,篩選重組,將功能基因鎖定在基因組的某一個區(qū)段內。在這個過程中,如果能同時得到定位群體兩個親本的高質量基因組,則能在很大程度上縮短定位的年限并加深對功能基因變異形式的理解。例如在對玉米單向雜交不親和基因的精細定位中[17],借助參考基因組和組裝另一親本相應區(qū)段的BAC序列,確定了功能基因在其中一個親本中發(fā)生了提前中止;而此前由于定位區(qū)段在兩個親本基因組中發(fā)生了重大變異,其中一個基因組在該區(qū)段完全未知而導致無法進一步縮小區(qū)段[18-19]。
2.2高質量參考基因組對GWAS(genome-wideassociationstudy)結果的影響
近十年來,得益于GWAS方法的迅猛發(fā)展,傳統(tǒng)的尋找功能基因或者功能變異的遺傳學方法中所體現出的缺點,如耗時長、工作量大及無法充分挖掘自然群體中的等位變異等都得到了明顯的改善,但很少有人強調高質量基因組在獲得準確的GWAS結果中所起到的作用。一方面,早期的GWAS多產生于芯片測序的結果;另一方面,人們對稀有變異的理解也沒有今時今日那么深刻[20]。
2.3基于高參考質量基因組鑒定影響復雜性狀的基因組結構變異
隨著國際千人基因組計劃的實現,人們對基因組變異的了解也越來越深入,一些從前未能被發(fā)現和認識到的大型變異開始逐漸被人們研究[34],基因組結構變異(structurevariation)一般是指大小超過1kb的插入、缺失或者倒位。鑒定結構變異不同于鑒定一般的SNP,主要原因是由于在二代測序技術被用于群體水平高通量測序時,其read讀長過短,不足以跨越或者組裝出基因組上一些較大的結構變異。
因此,越來越多針對檢測大型結構變異,包括拷貝數變異(copynumbervariation)的算法和實驗平臺被開發(fā)出來,通過將實驗對象的測序reads直接比對回參考基因組上,保留下比對結果中錯配與不恰當比對的結果,鑒定不同個體中不同于參考基因組的結構變異。基于這樣的原理,一個高質量的參考基因組幾乎成為了所有檢測結構變異算法的基礎,參考基因組只有在保證組裝正確的前提下才能正確鑒定出其他材料或者樣本的結構變異。在此,我們討論幾種常見的鑒定結構變異(structurevariation)的方法[35],雖然這些算法基于不同的原理發(fā)展而來,但都必須依賴于一個高質量的參考基因組。
3基因組組裝質量在比較基因組學研究中所起的作用
基因組學發(fā)展至今,人們對變異的挖掘和理解已經不再局限于一個基因或一種性狀。從全基因組的角度出發(fā),探究某一個物種在整個進化歷史上所處的位置或某一類影響重要性狀的基因在多個物種中的作用,更有利于我們理解每一個生命個體的由來和進化。基于這樣的理念,比較基因組學應運而生。比較基因組學是基因組學發(fā)展到一定程度的產物,在比較基因組學的應用中,并不存在參考基因組概念。所進行比較的物種都有自身完整的基因組序列,通過最直接的序列比對,理論上可以檢測到存在于多個基因組上所有的變異信息。因此,保證多個基因組組裝的正確性往往決定了比較結果的可靠性。
堅持使用同一套組裝標準,讓所有基因組重測序數據基于同樣的參數進行組裝則是組裝質量保持一致的前提。比較基因組學基于多個基因組之間的相互比較,最后討論的問題往往離不開基因組之間一致且保守的區(qū)域以及各自特有的部分。利用這樣的結論不僅可以構建更清晰的物種進化樹,還可以發(fā)現那些在進化中至關重要的基因。
Zhang等[41]收集了48套已公布的鳥類基因組重測序數據,并且進行了統(tǒng)一的基因組組裝與注釋,隨后在它們之間進行了相互比較,構建了一個清晰完整的鳥類進化樹。同時,他們還發(fā)現鳥類雖然是最古老的哺乳動物之一,但相較于其他哺乳動物,鳥類的基因組大小卻在相當程度上縮減了。通過進一步研究比較結果之后,作者發(fā)現鳥類,尤其是現代鳥類,與其他哺乳動物(海龜、鱷魚)相比,經歷了更多的染色體小片段丟失事件,但這樣的丟失卻沒有對鳥類的生存造成重大的影響,其中關鍵的原因是由于這些經歷了丟失的片段內所包含的基因大部分在基因組上都有同源基因,可以在一定程度上對丟失的基因進行功能互補。
Stein等[14]通過選取13個具有代表性的水稻品種,同時組裝全基因組序列,并且在比較后發(fā)現,雖然水稻各品種間的差異已經很小,但是仍然有一些染色體重排事件只存在于某些品種內,這導致了轉座子和一些新的非編碼區(qū)序列的誕生。
同時,作者還比較了13個基因組之間抗病基因家族的一致性,發(fā)現雖然抗病基因由于偏向于形成基因簇而很難被研究清楚,但是基因的排布卻有一定的規(guī)律可循,兩個相鄰的抗病基因更傾向于首對首(head-to-head)地分布,這可能是為了更好地形成抗病復合體。比較基因組學著眼于全基因組,在一定程度上為人們解釋更宏觀的科學問題提供了方法。不同基因組之間的比較往往適用于解釋不同的問題。
自2017年PGA會議發(fā)展“重測序項目”以來,比較基因組學由于信息來源的廣泛性和幾乎覆蓋所有重要動植物基因組的眾多重測序項目而進入了一個黃金時代,但基因組和基因組之間參差不齊的質量仍然值得關注和改善。在比較基因組學探究具體的生物學話題和意義之前,保證基因組的質量和正確性,甚至保證由組裝誤差造成的錯誤都盡可能地一致,將所有基因組放在同樣的水平上進行比較是比較的前提。
4基于高質量參考基因組獲得涵蓋物種內更多變異信息的泛基因組
隨著基因組學的發(fā)展,更多的參考基因組被組裝出來。在芯片測序和短序列比對的過程中發(fā)現了大量變異。人們開始思考,一個參考基因組是否真的能代表整個物種?一個基因組上的一種變異是否足夠解釋物種內所有表型變異?雖然有很多方法可以挖掘物種間變異,例如前文介紹的鑒定結構變異(structurevariation)的算法等,但是對于較為復雜的基因組而言,從頭組裝一個高質量基因組是最直接和簡便的研究全新變異的辦法。
5基于高質量基因組解析
生物復雜性狀的遺傳機制(casestudy)高質量的基因組究竟能對研究結果產生多大的影響?野生的葫蘆科植物具有強烈的苦味(葫蘆素),在自然界中可以保護植物。雖然葫蘆素可以提高人體免疫力以及抑制癌細胞生長,但就適口度而言卻是一種不利性狀[48]。黃瓜作為一種被人類馴化的葫蘆科植物,在基因組上仍存在著兩個控制葫蘆素合成的位點,其中Bi導致整個植株都帶有苦味[49],而Bt只讓植株果實帶有苦味[50]。Shang等[51]通過對155個黃瓜重測序構建了一個高密度的黃瓜遺傳圖譜,檢測到一個位于6號染色體上與苦味顯著相關的位點,并且在該位點附近發(fā)現由于攜帶了一個非同義突變而導致葫蘆素不能合成的基因,即為Bi基因。
同時,研究人員對一個帶有苦味的黃瓜品種(XY-2)和一個不帶苦味的黃瓜(XY-3)進行全基因組重測序后,比較了兩個基因組上攜帶的變異位點,發(fā)現一個位于loop-helix轉錄因子上的變異可以顯著影響B(tài)i的表達量;并在蛋白質互作實驗中驗證了Bi與該轉錄因子結合的真實性,并推斷這個在黃瓜葉片中特異表達的轉錄因子通過與Bi基因的結合間接地影響葫蘆素的含量。
進一步分析GWAS顯著位點附近的基因在兩個基因組上的差異,研究人員驚奇地發(fā)現Bi附近、1號以及3號染色體上分別存在4個、1個和3個被注釋為酰基轉移酶的基因與它享有相同的表達譜,且在兩個重測序的黃瓜基因組上也呈現一致的表達趨勢。而酰基轉移酶是在葫蘆素合成途徑下游中起到關鍵氧化和乙酰化作用的酶,進一步的RNAi實驗顯示在降低了任何一個酰基轉移酶表達量之后,葫蘆素的含量都有明顯下降。因此,研究人員大膽推測,8個酰基轉移酶與Bi基因共同作用,調控黃瓜中葫蘆素的合成。
6前景展望
基因組學的發(fā)展不僅依賴于生物信息學的發(fā)展,更得益于測序技術的發(fā)展。自二代高通量測序平臺投入使用以來,幾乎所有重要的動植物基因組都有了重測序數據。本文雖然只著重于回顧基因組組裝的方法及組裝質量對解析動植物復雜性狀所起到的作用,但高質量基因組的內涵并不僅止于此,還包括了基因結構與功能注釋、轉座子注釋,甚至于染色體交互信息注釋。
但這一切都需要基于基因組序列的正確性。迄今為止,還沒有一個大型基因組可以完全做到沒有組裝漏洞。而在這其中復雜區(qū)域、轉座子和重復序列的作用與影響也許遠超過我們的想象,很多尚未得到解釋的生物學現象也許就隱藏在我們無法獲得的基因組漏洞背后,要獲得這部分序列的正確組裝結果仍然任重道遠。