littlebot

Published on 2025-04-11 / 5 Visits

0

【源码】基于Python和OpenAI Whisper的语音转文字系统

项目简介

本项目名为Voice2Text，是基于Python和OpenAI Whisper开发的语音转文字系统。它能够对音频、视频以及实时语音进行转文字处理，借助Faster Whisper模型进行音频特征提取和语音活动检测，可广泛应用于语音识别、语音助手等领域。

项目的主要特性和功能

支持多种输入类型，涵盖音频、视频文件以及实时语音的转文字功能。
采用Faster Whisper模型进行音频特征提取和语音活动检测，保证转文字的效率与准确性。
提供图形用户界面和命令行界面两种使用方式，适应不同用户的操作习惯。
格式兼容性强，支持MP3、WAV等多种常见音频格式。
可根据需求灵活调整模型参数和输出格式。

安装使用步骤

方法一

去模型仓库下载 faster-whisper-large-v2 模型放到models文件夹中。
在Windows系统中，双击run.bat；在Linux或Mac系统中，双击run.sh运行。
若要使用GPU，需自己下载安装CUDA12。

方法二

拉取代码： cd ./Voice2Text
创建Python虚拟环境： conda create -p ./env python==3.11.9 conda activate ./env
安装依赖： pip install -r requirements.txt
下载模型到models文件中，模型仓库为 https://huggingface.co/Systran，默认使用 faster-whisper-large-v2，若使用其他模型，需在代码里修改模型名称。
启动项目： python webUI.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】