使用开源模型GPT_SoVITS训练自己的tts

GPT-SoVITS 是github上开一个开源的tts模型，可以基于用户上传的声音（哪怕只是一分钟的声音）得到用户声音模型，然后根据文字来生成语音。
项目还处于活跃的开发中，我上周测试的时候使用源代码还遇到了几次出错，所以改用docker来运行。

安装ffmpeg

1	`apt install ffmpeg`

安装ffmpeg的python扩展

1	`pip3 install ffmpeg`

安装gradio

1	`pip3 install gradio`

安装docker 和相关驱动包

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
  && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
    sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
    sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

参见nvidia-docker2

使用docker 运行：

RT=`pwd`/rt
mkdir $RT/output
mkdir $RT/logs
PWD=`pwd`
WT="$PWD/GPT-SoVITS/SoVITS_weights"
mkdir $WT
sudo docker run --rm -it --gpus=all --env=is_half=False  --volume=/home/ubuntu/:/home/ubuntu/ --volume=$RT/output:/workspace/output --volume=$RT/logs:/workspace/logs --volume=$RT:/workspace/SoVITS_weights --workdir=/workspace -p 9870:9870 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits

使用开源模型GPT_SoVITS训练自己的tts

https://404.ms/2024/02/19/glance-of-GPT-SoVITS-tts/

作者

rocky.x

发布于

2024年2月19日

许可协议

Rails集成prometheus的几个经验上一篇

Apache Drill vs. Baidu Doris： A Comparative Analysis 下一篇