亚洲+日产+专区,色哟哟国产精品免费观看,色一情一区二区三区四区,少妇久久久久久被弄到高潮,少妇搡bbbb搡bbb

驅(qū)動(dòng)號(hào)
首頁(yè) 人工智能 閱讀正文 :
推薦特斯拉或聯(lián)手百度推進(jìn)國(guó)內(nèi)FSD落地

AI助力語(yǔ)音克隆,人和自己“對(duì)話”的障礙在哪?

來(lái)源: 驅(qū)動(dòng)中國(guó) 作者:智能相對(duì)論 2018-03-09 13:35 訪問(wèn)量: 編輯:智能相對(duì)論

文 | 王志

來(lái)源 | 智能相對(duì)論(aixdlun)

 

如果有一天,你可以將你的聲音通過(guò)人工智能技術(shù)“克隆”出來(lái),而且你還能和“你”進(jìn)行各種對(duì)話,你是否愿意嘗試?

這個(gè)場(chǎng)景并不遙遠(yuǎn),不久前,AI First”的谷歌表示,其最新版本的人工智能語(yǔ)音合成系統(tǒng)——Tacotron2合成出來(lái)的語(yǔ)音幾乎和真人聲音一模一樣。它擁有兩個(gè)深度神經(jīng)網(wǎng)絡(luò),第一個(gè)能夠?qū)⑽谋巨D(zhuǎn)化為頻譜圖,第二個(gè)則負(fù)責(zé)將頻譜圖生成相應(yīng)的音頻。

而麻省理工評(píng)論則認(rèn)為百度的技術(shù)則更進(jìn)一步,百度在最近發(fā)布的新論文中表示,該技術(shù)只要通過(guò)一個(gè)半小時(shí)的語(yǔ)音數(shù)據(jù)的學(xué)習(xí),就能“克隆”出原對(duì)象的聲音。雖然以前百度的“Deep Voice”也能夠生成語(yǔ)音,但讓生成出來(lái)的語(yǔ)音附帶不同的語(yǔ)言特色正是語(yǔ)音生成的一大突破,而且它除了能“克隆”之外,還能對(duì)該聲音的性別或口音進(jìn)行更改,甚至還能賦予該克隆聲音一些簡(jiǎn)單的情感。

語(yǔ)音克隆技術(shù)是什么?又能做些什么?

AI助力語(yǔ)音克隆,人和自己“對(duì)話”的障礙在哪?1.png

語(yǔ)音合成的技術(shù)有三種,但只有AI技術(shù)才能稱為語(yǔ)音克隆

最早的語(yǔ)音合成技術(shù)通過(guò)預(yù)先錄制好的字詞、短句來(lái)實(shí)現(xiàn)的,把各個(gè)部分串成一行,以此產(chǎn)生完整的句子。生活中各種服務(wù)熱線的自助語(yǔ)音系統(tǒng)就是用這種方式實(shí)現(xiàn)的,所以會(huì)經(jīng)常存在卡頓,音色不一樣等問(wèn)題,語(yǔ)氣也很冰冷。

第二種手段雖然能夠使語(yǔ)音更加自然,但其中也需要大量的人工處理,首先是制作語(yǔ)音庫(kù),確定音色、風(fēng)格、特性、角色等要求后,投入音庫(kù)生產(chǎn)線,設(shè)計(jì)錄音腳本、訓(xùn)練錄音資源、進(jìn)行效果優(yōu)化,在輸出的時(shí)候還要進(jìn)行各類語(yǔ)言處理,包括文本規(guī)整、詞的切分,然后是韻律處理,為其劃出音段特征,如音高、音長(zhǎng)和音強(qiáng)等等,使合成的語(yǔ)音給人的感覺(jué)更加自然些。

但這類合成系統(tǒng)因?yàn)檫M(jìn)行韻律預(yù)測(cè)處理方面的工作量巨大、所以也存在表現(xiàn)能力不足等問(wèn)題,如合成語(yǔ)音對(duì)不同情感的表達(dá)會(huì)不夠恰當(dāng),使得合成語(yǔ)音聽(tīng)起來(lái)缺乏人情味。而語(yǔ)音合成的技術(shù)發(fā)展不僅要讓說(shuō)話的聲音達(dá)到真人水準(zhǔn),也應(yīng)當(dāng)在情感表達(dá)方面有所突破,使語(yǔ)音交互帶有情感,達(dá)到更好的交流體驗(yàn)。

最近爆出的百度Deep Voice技術(shù),則是通過(guò)深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)“語(yǔ)音克隆”的,通過(guò)真實(shí)語(yǔ)音的訓(xùn)練,能在“聽(tīng)”的過(guò)程中學(xué)會(huì)每個(gè)人說(shuō)話時(shí)字詞、音位和句子的發(fā)音特點(diǎn),并通過(guò)模仿這個(gè)人聲音中的情感和語(yǔ)調(diào),“說(shuō)”出全新的語(yǔ)句;“一聽(tīng)一說(shuō)”之間,整個(gè)過(guò)程基本不用人工干預(yù),深度學(xué)習(xí)技術(shù)可以自行完成所有工作。

具體來(lái)說(shuō),百度的研究人員是通過(guò)兩種具體的方法來(lái)實(shí)現(xiàn)的:說(shuō)話人適應(yīng)(speaker adaption)和說(shuō)話人編碼(speaker encoding)。它們可以只用最少的音頻數(shù)據(jù)來(lái)完成任務(wù),并且在深度語(yǔ)音系統(tǒng)中,即使處于一個(gè)多揚(yáng)聲器模型,也不會(huì)降低質(zhì)量。

其中“說(shuō)話人適應(yīng)”是使用多個(gè)克隆樣本,基于反向傳播的優(yōu)化方法對(duì)多個(gè)說(shuō)話人語(yǔ)音生成模型做精細(xì)調(diào)節(jié)。這個(gè)方法可以只作用于低維度的說(shuō)話人嵌入,或者作用于整個(gè)模型;在低緯度的嵌入時(shí),每個(gè)說(shuō)話人所需的參數(shù)量比較少,而且需要較長(zhǎng)的克隆時(shí)間,生成語(yǔ)音的質(zhì)量也會(huì)差一些。

其中“說(shuō)話人編碼”則需要訓(xùn)練一個(gè)單獨(dú)的模型,用它直接從語(yǔ)音樣本中推斷出一個(gè)新的嵌入數(shù)據(jù),然后再把這個(gè)嵌入數(shù)據(jù)用在多個(gè)講話人語(yǔ)音生成的模型中。而且這個(gè)方法還帶有時(shí)域和頻域的處理模塊,可以從音頻樣本分析中提取到有關(guān)說(shuō)話人的身份信息,然后用注意力模塊把各種信息以最優(yōu)的方式結(jié)合起來(lái)。這個(gè)方法的好處是克隆耗時(shí)少、標(biāo)明說(shuō)話人信息所需要的參數(shù)少,使得這種方法在輸入資源有限的場(chǎng)景中也能夠使用。

AI助力語(yǔ)音克隆,人和自己“對(duì)話”的障礙在哪?2.jpg


語(yǔ)音克隆的功與過(guò)

在人機(jī)交互的個(gè)性化場(chǎng)景中,研究人員預(yù)期語(yǔ)音克隆可能會(huì)有很重要的作用,如可以用來(lái)訂制個(gè)人AI助手、讀書音頻以及殘疾人語(yǔ)音系統(tǒng)等,且對(duì)有語(yǔ)言障礙人來(lái)說(shuō),這個(gè)程序能幫助他們練習(xí)發(fā)聲,使他們更容易與人交流,這種過(guò)程就像是在和一個(gè)善解人意的朋友在聊天一樣,可能會(huì)成為一個(gè)重要的社交工具。

而在心理醫(yī)療領(lǐng)域,如果能復(fù)原出逝者的聲音,這對(duì)于痛失親人后在心理上造成了創(chuàng)傷的人們來(lái)說(shuō),也無(wú)疑是巨大的安慰。

不過(guò)語(yǔ)音克隆也會(huì)帶來(lái)一些麻煩,它可能會(huì)被用來(lái)對(duì)公眾人物進(jìn)行惡意攻擊;也可能會(huì)使聲紋識(shí)別形同虛設(shè),因?yàn)閾?jù)《新科學(xué)家》報(bào)道,使用人工智能技術(shù)做出聲音識(shí)別軟件,在測(cè)試中,準(zhǔn)確率已經(jīng)超過(guò)了95%;也可能破壞錄音作為法律證據(jù)的可信度;還可能會(huì)用來(lái)假冒他人身份,成為語(yǔ)音詐騙的幫兇。它預(yù)示著未來(lái)的聲音可能會(huì)像照片一樣,可以很容易地進(jìn)行偽造。

但克隆出的人類聲音,這其中還是會(huì)有些細(xì)微差別,經(jīng)不起詳細(xì)推敲——取證專家可能會(huì)通過(guò)分析語(yǔ)音中的數(shù)字簽名,從而證明其為合成語(yǔ)音;而研究人員也開(kāi)始在研究一種“聲紋”系統(tǒng),以期其能很容易的分辨出原聲和生成的語(yǔ)音;不過(guò)語(yǔ)音克隆還是存在著很多隱患,因?yàn)樵谄胀ǖ纳町?dāng)中,足以造成相當(dāng)嚴(yán)重的誤導(dǎo)性效果。

AI助力語(yǔ)音克隆,人和自己“對(duì)話”的障礙在哪?3.jpg

要實(shí)現(xiàn)“完美”的語(yǔ)音克隆,最大的一道坎在哪?

智能相對(duì)論(微信ID:aixdlun)認(rèn)為,完美的語(yǔ)音克隆,也應(yīng)該能夠克隆出說(shuō)話人攜帶的情感,而不僅僅是音色等表象的元素,就像是這個(gè)聲音擁有自己的靈魂。而目前語(yǔ)音克隆能夠進(jìn)行的情感表達(dá),更多的是研究人員修改完成的,而且還需要對(duì)各類情感進(jìn)行標(biāo)注。

谷歌的Tacotron2系統(tǒng)也還只能進(jìn)行模式化的情感表達(dá),如根據(jù)輸入文本的標(biāo)點(diǎn)符號(hào)的不同而在語(yǔ)氣上有所區(qū)分;在讀大寫單詞時(shí)加重語(yǔ)氣等。

百度和谷歌的語(yǔ)音合成技術(shù)暫時(shí)不能達(dá)到自行合成情感,這也是語(yǔ)音克隆其技術(shù)本身所限,要實(shí)現(xiàn)合成出的每一句話有其恰當(dāng)?shù)那楦校@里面有情感識(shí)別、情感自動(dòng)標(biāo)注、、語(yǔ)氣調(diào)整等大量的數(shù)據(jù)和工程難度,費(fèi)用和技術(shù)也暫時(shí)難以逾越。

而更進(jìn)一步,想要和機(jī)器進(jìn)行有情感語(yǔ)音的交互就更加困難了,因?yàn)檫@并不是單一技術(shù)所能完成的,它除了能輸出情感之外,還必須要求自然語(yǔ)言處理技術(shù)能夠識(shí)別出人類表達(dá)中的各種情感,以此作為回應(yīng)的前提,而這已經(jīng)超出了語(yǔ)音克隆的技術(shù)范圍。

在語(yǔ)音交互中,讓機(jī)器能夠自然、順暢的說(shuō)話是人機(jī)交互的一大要求,表現(xiàn)力、音質(zhì)、復(fù)雜度和自然度一直是語(yǔ)音合成所追求的。

而隨著AI技術(shù)的發(fā)展,語(yǔ)音交互的音質(zhì)、流暢度、自然度都得到了很大的提高,但在表現(xiàn)力方面依舊是其最大的痛點(diǎn),不過(guò)隨著各大廠商的持續(xù)發(fā)力,未來(lái)使機(jī)器也能像朗讀者一樣,抑揚(yáng)頓挫、情感起伏、拿捏到位也不是夢(mèng)想。

 

智能相對(duì)論(微信id:aixdlun):深挖人工智能這口井,評(píng)出咸淡,講出黑白,道出深淺。重點(diǎn)關(guān)注領(lǐng)域:AI+醫(yī)療、機(jī)器人、智能駕駛、AI+硬件、物聯(lián)網(wǎng)、AI+金融、AI+安全、AR/VR、開(kāi)發(fā)者以及背后的芯片、算法、人機(jī)交互等。