驅動中國2017年12月29日消息 據外媒WCCF Tech報道,谷歌公司近期通過人工智能技術研發(fā)的語音合成系統(tǒng)Tacotron 2,其發(fā)音精準度已與真人發(fā)音很難準確區(qū)分,將被用于文字轉語音的應用場景。而在此之前,我們習以為常的語音轉文字技術則相對容易一些。 據悉,谷歌基于第二代技術開發(fā)出了Tacotron 2語音系統(tǒng)。它由兩個深層的神經網絡組成。一個神經網絡將文本轉換為PDF格式的頻譜圖,另一個為接入頻譜圖載入的神經網絡WaveNet。WaveNet 神經網絡再讀取頻譜圖并生成與人聲高度相似的音頻元素。 目前,Tacotron 2系統(tǒng)僅訓練了英語女聲,在英文文本的轉換閱讀中可分辨細小差異,會在句子單詞中出現(xiàn)大寫字母時特別加重語調進行閱讀。Tacotron 2系統(tǒng)系統(tǒng)還具備處理文本中少量的單詞錯誤的功能。 據谷歌表示,Tacotron 2語音系統(tǒng)的文本轉語音技術,在發(fā)音上已經幾乎與人聲無法準確區(qū)分開來。谷歌公司稱,這套語音系統(tǒng)已經不局限于實驗室中,已經被試用于Google Assistant來生成仿真語音。在進一步完善后,將直接應用于Google Assistant 語音助手中。
|