littlebot
Published on 2025-04-01 / 1 Visits
0

【源码】基于Python和VITS的语音转换WebUI

项目简介

本项目是一个基于VITS的简单易用的语音转换框架,借助Web界面达成高效的语音转换功能。支持多种硬件平台(N卡、A卡、I卡),还提供丰富的预训练模型与工具,可助力用户快速实现语音转换、音频处理等功能。

项目的主要特性和功能

  • 音色保护:采用top1检索替换输入源特征为训练集特征,防止音色泄漏。
  • 高效训练:在较差显卡上也能快速训练,少量数据就能取得较好效果。
  • 模型融合:支持通过模型融合改变音色。
  • 简单易用的Web界面:提供直观的操作界面,方便用户使用。
  • 音频分离:可调用UVR5模型快速分离人声和伴奏。
  • 先进的音高提取算法:运用InterSpeech2023 - RMVPE算法,提升音高提取效果且资源占用小。
  • 多平台支持:支持Windows、Linux、MacOS等操作系统,同时提供对N卡、A卡、I卡的加速支持。

安装使用步骤

环境配置

  1. 安装Python:确保Python版本大于3.8。
  2. 安装PyTorch: bash pip install torch torchvision torchaudio 对于Nvidia Ampere架构(RTX30xx)的Windows用户,需指定CUDA版本: bash pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
  3. 安装项目依赖:
  4. N卡用户: bash pip install -r requirements.txt
  5. A卡/I卡用户: bash pip install -r requirements-dml.txt

预模型准备

  1. 下载预训练模型:从Hugging Face space下载所需的预训练模型,并放置在./assets目录下。
  2. 安装FFmpeg:
  3. Ubuntu/Debian用户: bash sudo apt install ffmpeg
  4. MacOS用户: bash brew install ffmpeg
  5. Windows用户:下载ffmpeg.exeffprobe.exe并放置在项目根目录。
  6. 下载RMVPE音高提取模型:下载rmvpe.pt并放置在项目根目录。

启动项目

  1. 直接启动WebUI: bash python infer-web.py
  2. 使用整合包:
  3. Windows用户:双击go-web.bat
  4. MacOS用户: bash sh ./run.sh

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】