懷柔高端網(wǎng)站建設(shè)win7系統(tǒng)優(yōu)化
一、模型介紹
強(qiáng)大的小樣本語音轉(zhuǎn)換和文本轉(zhuǎn)語音 WebUI。
具有以下特征:
- 零樣本 TTS: 輸入 5 秒的聲音樣本并體驗(yàn)即時(shí)文本到語音的轉(zhuǎn)換。
- 少量樣本 TTS: 僅使用 1 分鐘的訓(xùn)練數(shù)據(jù)對模型進(jìn)行微調(diào),以提高語音相似度和真實(shí)感。
- 跨語言支持:使用不同于訓(xùn)練數(shù)據(jù)集的語言進(jìn)行推理,目前支持英語、日語、韓語、粵語和中文。
- WebUI 工具: 集成工具包括語音伴奏分離、自動(dòng)訓(xùn)練集分割、中文 ASR 和文本標(biāo)注,幫助初學(xué)者創(chuàng)建訓(xùn)練數(shù)據(jù)集和 GPT/SoVITS 模型。
二、部署流程
測試環(huán)境
- Python 3.9、CUDA 12.1
1.克隆
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
cd /GPT-SoVITS/
2.創(chuàng)建虛擬環(huán)境并安裝
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh
3.安裝ffmpeg
conda install ffmpeg
4.安裝依賴項(xiàng)
pip install -r requirements.txt
5.預(yù)訓(xùn)練模型
用戶可以在這里下載所有這些模型。
- 從 GPT-SoVITS 模型下載預(yù)訓(xùn)練模型并將其放置在?
GPT_SoVITS/pretrained_models
。 - 下載 G2PW 模型G2PWModel_1.1.zip,解壓并重命名為?
G2PWModel
,然后將其放置在?GPT_SoVITS/text
。(僅支持中文 TTS) - 對于 UVR5(此外還有人聲/伴奏分離和混響消除),從UVR5 Weights下載模型并將其放入?
tools/uvr5/uvr5_weights
。 - 對于中文 ASR(另外),從Damo ASR 模型、Damo VAD 模型和Damo Punc 模型下載模型并將它們放置在 中?
tools/asr/models
。 - 對于英語或日語 ASR(另外),請從Faster Whisper Large V3下載模型并將其放入?
tools/asr/models
。此外,其他模型可能具有類似的效果,但磁盤占用空間更小。
也可從modelscope下載:
git lfs install
git clone https://www.modelscope.cn/AI-ModelScope/GPT-SoVITS.git
6.數(shù)據(jù)集格式
TTS 注釋.list 文件格式:
vocal_path|speaker_name|language|text
語言詞典:
- ‘zh’:中文
- ‘ja’:日語
- ‘en’:英語
- ‘ko’:韓語
- ‘粵’:粵語
三、推理
python webui.py