驅(qū)動(dòng)中國(guó)2017年12月29日消息 據(jù)外媒WCCF Tech報(bào)道,谷歌公司近期通過(guò)人工智能技術(shù)研發(fā)的語(yǔ)音合成系統(tǒng)Tacotron 2,其發(fā)音精準(zhǔn)度已與真人發(fā)音很難準(zhǔn)確區(qū)分,將被用于文字轉(zhuǎn)語(yǔ)音的應(yīng)用場(chǎng)景。而在此之前,我們習(xí)以為常的語(yǔ)音轉(zhuǎn)文字技術(shù)則相對(duì)容易一些。 據(jù)悉,谷歌基于第二代技術(shù)開(kāi)發(fā)出了Tacotron 2語(yǔ)音系統(tǒng)。它由兩個(gè)深層的神經(jīng)網(wǎng)絡(luò)組成。一個(gè)神經(jīng)網(wǎng)絡(luò)將文本轉(zhuǎn)換為PDF格式的頻譜圖,另一個(gè)為接入頻譜圖載入的神經(jīng)網(wǎng)絡(luò)WaveNet。WaveNet 神經(jīng)網(wǎng)絡(luò)再讀取頻譜圖并生成與人聲高度相似的音頻元素。 目前,Tacotron 2系統(tǒng)僅訓(xùn)練了英語(yǔ)女聲,在英文文本的轉(zhuǎn)換閱讀中可分辨細(xì)小差異,會(huì)在句子單詞中出現(xiàn)大寫(xiě)字母時(shí)特別加重語(yǔ)調(diào)進(jìn)行閱讀。Tacotron 2系統(tǒng)系統(tǒng)還具備處理文本中少量的單詞錯(cuò)誤的功能。 據(jù)谷歌表示,Tacotron 2語(yǔ)音系統(tǒng)的文本轉(zhuǎn)語(yǔ)音技術(shù),在發(fā)音上已經(jīng)幾乎與人聲無(wú)法準(zhǔn)確區(qū)分開(kāi)來(lái)。谷歌公司稱(chēng),這套語(yǔ)音系統(tǒng)已經(jīng)不局限于實(shí)驗(yàn)室中,已經(jīng)被試用于Google Assistant來(lái)生成仿真語(yǔ)音。在進(jìn)一步完善后,將直接應(yīng)用于Google Assistant 語(yǔ)音助手中。
|