littlebot

Published on 2025-04-01 / 1 Visits

0

【源码】基于Python和VITS的语音转换WebUI

项目简介

本项目是一个基于VITS的简单易用的语音转换框架，借助Web界面达成高效的语音转换功能。支持多种硬件平台（N卡、A卡、I卡），还提供丰富的预训练模型与工具，可助力用户快速实现语音转换、音频处理等功能。

项目的主要特性和功能

音色保护：采用top1检索替换输入源特征为训练集特征，防止音色泄漏。
高效训练：在较差显卡上也能快速训练，少量数据就能取得较好效果。
模型融合：支持通过模型融合改变音色。
简单易用的Web界面：提供直观的操作界面，方便用户使用。
音频分离：可调用UVR5模型快速分离人声和伴奏。
先进的音高提取算法：运用InterSpeech2023 - RMVPE算法，提升音高提取效果且资源占用小。
多平台支持：支持Windows、Linux、MacOS等操作系统，同时提供对N卡、A卡、I卡的加速支持。

安装使用步骤

环境配置

安装Python：确保Python版本大于3.8。
安装PyTorch： bash pip install torch torchvision torchaudio 对于Nvidia Ampere架构（RTX30xx）的Windows用户，需指定CUDA版本： bash pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
安装项目依赖：
N卡用户： bash pip install -r requirements.txt
A卡/I卡用户： bash pip install -r requirements-dml.txt

预模型准备

下载预训练模型：从Hugging Face space下载所需的预训练模型，并放置在./assets目录下。
安装FFmpeg：
Ubuntu/Debian用户： bash sudo apt install ffmpeg
MacOS用户： bash brew install ffmpeg
Windows用户：下载ffmpeg.exe和ffprobe.exe并放置在项目根目录。
下载RMVPE音高提取模型：下载rmvpe.pt并放置在项目根目录。

启动项目

直接启动WebUI： bash python infer-web.py
使用整合包：
Windows用户：双击go-web.bat。
MacOS用户： bash sh ./run.sh

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】