驅(qū)動中國2017年12月11日消息 上周,谷歌發(fā)布了一款DeepVariant程序工具,它具備先進的AI深度學(xué)習(xí)能力,能利用測序數(shù)據(jù)拼湊更精準的人類基因圖譜,還可以精確識別DNA序列中的突變。這也是15年前科學(xué)家對人類基因測序后,首次實現(xiàn)計算機工具來解碼基因數(shù)據(jù)。 據(jù)悉,DeepVariant可實現(xiàn)將高通量測序所測區(qū)的數(shù)據(jù),轉(zhuǎn)換成完整的基因組圖像。其可以自動識別測序數(shù)據(jù)中的插入基因、缺失突變以及單堿基對變異。之前,科學(xué)家所運用的高通量測序,雖然可以讓基因測序更容易實現(xiàn)。不過,這一測序方法所提供數(shù)據(jù)有限且易出錯。 目前, 科學(xué)家普遍使用的測序方法有: GATK、 VarDict 和 FreeBayes。不過這些工具都是通過排除讀取錯誤來鑒別突變。像使用最廣泛的GATK,就是通過簡易的人工設(shè)計的算法來測序。不過,谷歌推出的DeepVariant借助AI神經(jīng)網(wǎng)絡(luò)來構(gòu)建基于圖像要比這些方法都要更精確。 谷歌的研究團隊,試著將DNA測序數(shù)據(jù)轉(zhuǎn)換成一個圖像從而利用圖像識別技術(shù)來建立更精確的DNA序列。科學(xué)家還對數(shù)百萬份基因組測序以及高通量測序法進行了研究,來教會DeepVariant哪些數(shù)據(jù)重要,哪些可以忽略。 據(jù)DeepVariant的創(chuàng)造者來自哈佛大學(xué)公共衛(wèi)生學(xué)院的Brad Chapman教授介紹,“其中一個挑戰(zhàn)在于基因組的復(fù)雜片段,每種工具都有優(yōu)缺點。這些復(fù)雜區(qū)域?qū)εR床測序異常重要,使用多種方法很有必要。” 谷歌此次發(fā)布的DeepVariant,在之前由三種顏色和三種數(shù)據(jù)組成的基因圖像在新發(fā)布的版本中達到了7種,可以更精準的表示基因數(shù)據(jù)信息。此外,DeepVariant目前還是款開源軟件,其他研究人員也可以使用DeepVariant進行基因測序的研究。
|