谷歌稱(chēng)語(yǔ)音合成系統(tǒng)Tacotron 2已達(dá)人類(lèi)說(shuō)話效果
- 來(lái)源:3DM新聞組-Light
- 作者:NT
- 編輯:newtype2001
眾所周知,谷歌近年來(lái)在人工智能領(lǐng)域進(jìn)行了大量實(shí)驗(yàn)。今天,谷歌在這個(gè)領(lǐng)域中又前進(jìn)了一步。谷歌方面宣稱(chēng),旗下AI驅(qū)動(dòng)語(yǔ)音合成系統(tǒng)Tacotron 2的最新版本已經(jīng)基本達(dá)到人類(lèi)說(shuō)話的效果。谷歌還上傳了一些Tacotron 2的語(yǔ)音小樣,來(lái)讓大家體驗(yàn)一下這個(gè)最新科技。
Tacotron 2是谷歌的第二代語(yǔ)音文字轉(zhuǎn)換技術(shù),結(jié)合了兩大深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)了近乎完美的輸出效果。第一層神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)將文字轉(zhuǎn)化為頻譜圖(pdf),用視效來(lái)渲染聲音頻率。轉(zhuǎn)換為頻譜圖之后,將其提交給WaveNet,也就是由Alphabet的AI研究實(shí)驗(yàn)室DeepMind開(kāi)發(fā)的系統(tǒng)。WaveNet讀取頻譜圖表,并生成與之相近的聲音元素。
語(yǔ)音文字轉(zhuǎn)換技術(shù)當(dāng)然不是什么新科技了。但谷歌方面宣稱(chēng)其文字轉(zhuǎn)換語(yǔ)音技術(shù)高于市面上大部分類(lèi)似的技術(shù),并與人類(lèi)發(fā)音幾無(wú)二致。
Tacotron 2的發(fā)音將與上下文進(jìn)行結(jié)合,有別于現(xiàn)在市面上一個(gè)詞一個(gè)詞蹦的朗讀方式。另外該系統(tǒng)還會(huì)對(duì)標(biāo)點(diǎn)符號(hào)作出反應(yīng),并會(huì)對(duì)句子中的大寫(xiě)單詞進(jìn)行強(qiáng)調(diào)。
玩家想要體驗(yàn)這段對(duì)比音頻的話,可以點(diǎn)此鏈接。其中有兩段語(yǔ)音小樣,而且谷歌并未標(biāo)明哪一段是由Tacotron 2朗讀,哪一段是人類(lèi)朗讀的。但如果你深扒一下文件來(lái)源,就能發(fā)現(xiàn)哪段音頻出自Tacotron 2。
在聽(tīng)完語(yǔ)音小樣并通過(guò)源代碼模式找到哪段出自Tacotron 2之手之后,我們可以發(fā)現(xiàn)谷歌確實(shí)交出了一份讓人驚嘆的答卷。這個(gè)聲音確實(shí)與人類(lèi)發(fā)音非常接近,雖然并不是完全一致,但也已經(jīng)非常接近。相比市面上那些機(jī)器味十足的技術(shù)來(lái)說(shuō)已經(jīng)好了很多。而且我們還能聽(tīng)出文本中的標(biāo)點(diǎn)以及相應(yīng)的節(jié)奏變換。


-
傾國(guó)之怒
-
原始傳奇
-
斗羅大陸(我唐三認(rèn)可0.1折)
-
太閣立志2
-
奇門(mén)(0.1折仙俠不用閃)
-
深淵契約
-
貓狩紀(jì)0.1折
-
靈劍仙師(斗破蒼穹)
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門(mén)評(píng)論
全部評(píng)論