seo做的最好的網(wǎng)站排行青島優(yōu)化網(wǎng)站關(guān)鍵詞
https://github.com/myshell-ai/OpenVoice
https://arxiv.org/abs/2312.01479
文章目錄
- 摘要
- 1 引言
- 2 方法
- 2.1 直觀思路
- 2.2 模型結(jié)構(gòu)
- 2.3 訓(xùn)練細(xì)節(jié)
- 3 結(jié)果
- 4 結(jié)論
摘要
我們介紹了OpenVoice,一種多功能的即時(shí)語(yǔ)音克隆方法,只需參考說(shuō)話者的短音頻片段即可復(fù)制其聲音,并生成多語(yǔ)言的語(yǔ)音。OpenVoice在解決以下領(lǐng)域開放挑戰(zhàn)方面取得了重要進(jìn)展:1)靈活的聲音風(fēng)格控制。OpenVoice允許對(duì)聲音風(fēng)格進(jìn)行細(xì)粒度控制,包括情感、口音、節(jié)奏、停頓和語(yǔ)調(diào),除了復(fù)制參考說(shuō)話者的音色外。這些聲音風(fēng)格并不直接復(fù)制并受限于參考說(shuō)話者的風(fēng)格。之前的方法在克隆后無(wú)法靈活操控聲音風(fēng)格。2)零-shot跨語(yǔ)言語(yǔ)音克隆。OpenVoice實(shí)現(xiàn)了對(duì)未包含在大規(guī)模說(shuō)話者訓(xùn)練集中的語(yǔ)言的零-shot跨語(yǔ)言語(yǔ)音克隆。與之前通常需要廣泛的大規(guī)模說(shuō)話者多語(yǔ)言(MSML)數(shù)據(jù)集的做法不同,OpenVoice可以在沒有該語(yǔ)言的大規(guī)模說(shuō)話者訓(xùn)練數(shù)據(jù)的情況下,將聲音克隆到新語(yǔ)言中。OpenVoice在計(jì)算上也很高效,其成本是商業(yè)API的數(shù)十分之一,而這些API甚至表現(xiàn)更差。為了促進(jìn)該領(lǐng)域的進(jìn)一步研究,我們公開了源代碼和訓(xùn)練模型。我們還在演示網(wǎng)站上提供了定性結(jié)果。在公開發(fā)布之前,OpenVoice的內(nèi)部版本在2023年5月至10月期間被全球用戶使用了數(shù)千萬(wàn)次,作為MyShell.ai的后臺(tái)服務(wù)。
1 引言
即時(shí)語(yǔ)音克?。↖VC)在文本到語(yǔ)音(TTS)合成中意味著TTS模型可以在不給參考說(shuō)話者額外訓(xùn)練的情況下,僅憑短