VALL-E 微軟開發的文字轉語音模型驚人的模擬能力，令人害怕的既視感

2/16/2023 07:30:00 上午

VALL-E 微軟開發的文字轉語音模型驚人的模擬能力，令人害怕的既視感

VALL-E 微軟開發的文字轉語音模型！可怕的是你只要給它3秒任何人的音訊，它即可模擬出聲音、語調甚至情緒並講出「任何話」。VALL-E 是「神經編碼解碼器語言模型」（Neural Codec Language Model），基於META辛宣布的Encode技術建立，它與一般透過操控聲音波形來合成語音的常見做法不同，VALL-E 從文字與聲音的「提示」產生個別音訊編碼解碼器，此新方式主要分析人如何發音，標記這些特徵，並記錄資訊分解成個別「token」元件，在此份研究論文中，開發者使用 LibriLight 音訊庫訓練，含 7 千多人約 6 萬小時說話內容。最終目前在範例網站展示，僅需3秒的語音檔，維妙維肖的模擬就如此輕而易舉的完成了!比DEEPFAKE更為可怕的工具就此誕生，往好處想它可以輕而易舉協助高品質文字轉語音應用開發、語音編輯及音訊內容創建…等，但誤入歧途」的 Deepfake仍記憶猶新，詐騙盛行的亞洲，詐騙集團也要開始進修AI了嗎?

PS:欲深入了解演算法做法可以參考資料來源3的paper