littlebot

Published on 2025-04-08 / 1 Visits

0

【源码】基于深度学习的语音强调检测与韵律转换系统

项目简介

本项目借助深度学习技术，达成对音频文件里语音强调的检测以及韵律特征的转换。通过提取音频中的语音特征，开展时域对齐与特征处理，最终生成可用于语音转换或其他语音任务的数据集。

项目的主要特性和功能

音频分段与特征提取
- 对原始音频进行分段，提取男声和女声片段。
- 利用百度语音识别 API 将音频转录为文字。
- 计算音频的韵律特征，涵盖音节时长、MFCC 等。
数据处理与对齐
- 把语音与文字进行时域对齐，生成对齐后的数据集。
- 对提取的特征进行标准化和归一化处理，生成最终的特征数据集。
深度学习模型支持
- 提供特征数据集，为后续深度学习模型训练（如语音转换模型）提供支持。

安装使用步骤

环境准备

安装 Python 3 和 Python 2.7+。
安装 FFmpeg、TensorFlow、inaSpeechSegmenter、pydub、pandas、sklearn、numpy 等依赖库。
下载并安装 SPPAS 工具，将其放置在项目根目录下。
获取并编译 fast_align 工具，将其可执行文件放置在项目根目录下。

数据准备

（可选）下载原始音频文件并放置在 audio/original 目录下。
（可选）运行 presegmentation.py 生成分段信息 CSV 文件。
（可选）运行 segmentation.py 进行音频分段。
（可选）运行 transcription.py 进行语音转录。
运行 selection.py 生成可用数据集的 CSV 文件。

数据处理

运行 parallelization.py 进行语音与文字的时域对齐。
运行 extraction.py 计算韵律特征，生成特征数据集。

模型训练

使用生成的特征数据集进行深度学习模型的训练。

通过上述步骤，用户能够顺利完成音频数据的处理，为后续语音强调检测与韵律转换任务做好准备。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】