项目简介
本项目借助深度学习技术,达成对音频文件里语音强调的检测以及韵律特征的转换。通过提取音频中的语音特征,开展时域对齐与特征处理,最终生成可用于语音转换或其他语音任务的数据集。
项目的主要特性和功能
- 音频分段与特征提取
- 对原始音频进行分段,提取男声和女声片段。
- 利用百度语音识别 API 将音频转录为文字。
- 计算音频的韵律特征,涵盖音节时长、MFCC 等。
- 数据处理与对齐
- 把语音与文字进行时域对齐,生成对齐后的数据集。
- 对提取的特征进行标准化和归一化处理,生成最终的特征数据集。
- 深度学习模型支持
- 提供特征数据集,为后续深度学习模型训练(如语音转换模型)提供支持。
安装使用步骤
环境准备
- 安装 Python 3 和 Python 2.7+。
- 安装 FFmpeg、TensorFlow、inaSpeechSegmenter、pydub、pandas、sklearn、numpy 等依赖库。
- 下载并安装 SPPAS 工具,将其放置在项目根目录下。
- 获取并编译 fast_align 工具,将其可执行文件放置在项目根目录下。
数据准备
- (可选)下载原始音频文件并放置在
audio/original
目录下。 - (可选)运行
presegmentation.py
生成分段信息 CSV 文件。 - (可选)运行
segmentation.py
进行音频分段。 - (可选)运行
transcription.py
进行语音转录。 - 运行
selection.py
生成可用数据集的 CSV 文件。
数据处理
- 运行
parallelization.py
进行语音与文字的时域对齐。 - 运行
extraction.py
计算韵律特征,生成特征数据集。
模型训练
使用生成的特征数据集进行深度学习模型的训练。
通过上述步骤,用户能够顺利完成音频数据的处理,为后续语音强调检测与韵律转换任务做好准备。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】