
廣州市天河區(qū)黃埔大道中124號(hào)2705室
電話:020-85625352
手機(jī):18102256923
Email:[email protected]
Fax:020-85625352
QQ:2913120624
技術(shù)服務(wù)描述
全基因組序列拼接是生物信息學(xué)研究領(lǐng)域的核心問(wèn)題。新一代測(cè)序技術(shù)正在引領(lǐng)生命科學(xué)研究進(jìn)入一個(gè)嶄新階段。人類基因組計(jì)劃完成之后,獲得個(gè)體基因組的全部序列對(duì)于生物學(xué)研究、探索與認(rèn)識(shí)生命的本質(zhì)具有十分重要的科學(xué)意義。
針對(duì)新一代測(cè)序數(shù)據(jù)reads長(zhǎng)度較短、數(shù)據(jù)海量的特點(diǎn),全基因組測(cè)序方面的數(shù)據(jù)分析軟件的研發(fā),已成為生物信息學(xué)領(lǐng)域最迫切、最重要的研究課題。雖然目前已開發(fā)有一些全基因組拼接軟件,但是基本都局限在大型計(jì)算平臺(tái)上完成數(shù)據(jù)分析過(guò)程,難以滿足一般的研究需求,而且數(shù)據(jù)處理速度仍然遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)產(chǎn)生速度,已經(jīng)成為整個(gè)基因組圖譜繪制工作的瓶頸,并且其拼接結(jié)果在準(zhǔn)確性方面還有待提高。
基因組序列拼接的核心思想是利用序列之間的交疊關(guān)系,通過(guò)類似于“搭積木”的方式重建目標(biāo)基因組序列。其基本方法是將序列之間的交疊關(guān)系轉(zhuǎn)換成計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu),通過(guò)不斷迭代擴(kuò)展的方式延長(zhǎng)目標(biāo)序列,然后利用配對(duì)數(shù)據(jù),確定各個(gè)目標(biāo)序列的相對(duì)方向和位置關(guān)系,最終還原目標(biāo)基因組序列。 基于新一代測(cè)序數(shù)據(jù)的基因組序列拼接,通常分為如下三個(gè)階段:(1)數(shù)據(jù)的預(yù)處理階段。該階段通過(guò)特定的方法,移除測(cè)序數(shù)據(jù)中的錯(cuò)誤堿基;(2)基因組連續(xù)片段(contigs)生成階段。該階段將reads拼接成contigs;(3)超長(zhǎng)序列片段(scaffoldings)組裝階段。該階段使用配對(duì)數(shù)據(jù),確定contigs之間的方向和位置關(guān)系,生成scaffoldings。
