项目简介
本项目是一个基于VITS的简单易用的语音转换框架,借助Web界面达成高效的语音转换功能。支持多种硬件平台(N卡、A卡、I卡),还提供丰富的预训练模型与工具,可助力用户快速实现语音转换、音频处理等功能。
项目的主要特性和功能
- 音色保护:采用top1检索替换输入源特征为训练集特征,防止音色泄漏。
- 高效训练:在较差显卡上也能快速训练,少量数据就能取得较好效果。
- 模型融合:支持通过模型融合改变音色。
- 简单易用的Web界面:提供直观的操作界面,方便用户使用。
- 音频分离:可调用UVR5模型快速分离人声和伴奏。
- 先进的音高提取算法:运用InterSpeech2023 - RMVPE算法,提升音高提取效果且资源占用小。
- 多平台支持:支持Windows、Linux、MacOS等操作系统,同时提供对N卡、A卡、I卡的加速支持。
安装使用步骤
环境配置
- 安装Python:确保Python版本大于3.8。
- 安装PyTorch:
bash pip install torch torchvision torchaudio
对于Nvidia Ampere架构(RTX30xx)的Windows用户,需指定CUDA版本:bash pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
- 安装项目依赖:
- N卡用户:
bash pip install -r requirements.txt
- A卡/I卡用户:
bash pip install -r requirements-dml.txt
预模型准备
- 下载预训练模型:从Hugging Face space下载所需的预训练模型,并放置在
./assets
目录下。 - 安装FFmpeg:
- Ubuntu/Debian用户:
bash sudo apt install ffmpeg
- MacOS用户:
bash brew install ffmpeg
- Windows用户:下载
ffmpeg.exe
和ffprobe.exe
并放置在项目根目录。 - 下载RMVPE音高提取模型:下载rmvpe.pt并放置在项目根目录。
启动项目
- 直接启动WebUI:
bash python infer-web.py
- 使用整合包:
- Windows用户:双击
go-web.bat
。 - MacOS用户:
bash sh ./run.sh
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】