项目简介
本项目是一个基于深度学习的语音转换系统,借助生成式对抗网络(GAN)和自编码器结构,通过训练模型学习原始语音和目标语音之间的映射关系,实现不同语音之间的转换。项目涵盖音频处理、深度学习模型构建、模型训练、音频生成等多个步骤。
项目的主要特性和功能
- 支持多语者跨语言语音转换,可实现不同语者和不同语言间的语音转换。
- 采用生成式深度学习,利用生成式对抗网络(GAN)和自编码器结构进行语音转换。
- 提供数据预处理脚本,能从VCTK语料库中创建数据集,并存储为H5PY格式的文件。
- 支持模型训练,可从零开始训练模型,也能从先前的检查点继续训练。
- 能够生成转换后的音频文件。
安装使用步骤
前提条件
假设用户已经下载了本项目的源码文件。
具体步骤
- 复制项目仓库:
bash cd voice-conversion
- 安装依赖库:
bash pip install -r requirements.txt
- 准备数据:
- 使用
make_dataset_vctk.py
从VCTK语料库中创建数据集:bash python3 make_dataset_vctk.py data_root_dir h5py_path train_proportion
- 使用
make_single_samples.py
从数据集中采样音频片段:bash python3 make_single_samples.py the_h5py_path index_path n_samples seg_len speaker_used_path
- 训练模型:
- 运行
main.py
进行模型训练:bash python3 main.py --load_model --flag train --hps_path mixture_10_.json --dataset_path your_dataset_path.h5 --output_model_path your_model_output_path
- 测试模型:
- 使用
VC_test.py
加载预训练模型并测试语音转换效果:bash python3 VC_test.py --model_path your_pretrained_model_path --input_audio_path your_input_audio_path --output_audio_path your_output_audio_path
注意事项
- 请确保输入数据路径和输出数据路径的正确性。
- 在运行脚本之前,请确保已经安装了所有必要的依赖库。
- 训练过程可能需要较长时间,请耐心等待。
- 测试语音转换效果时,请确保加载了正确的预训练模型。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】