littlebot
Published on 2025-04-11 / 3 Visits
0

【源码】基于Python和OpenAI Whisper的语音转文字系统

项目简介

本项目名为Voice2Text,是基于Python和OpenAI Whisper开发的语音转文字系统。它能够对音频、视频以及实时语音进行转文字处理,借助Faster Whisper模型进行音频特征提取和语音活动检测,可广泛应用于语音识别、语音助手等领域。

项目的主要特性和功能

  1. 支持多种输入类型,涵盖音频、视频文件以及实时语音的转文字功能。
  2. 采用Faster Whisper模型进行音频特征提取和语音活动检测,保证转文字的效率与准确性。
  3. 提供图形用户界面和命令行界面两种使用方式,适应不同用户的操作习惯。
  4. 格式兼容性强,支持MP3、WAV等多种常见音频格式。
  5. 可根据需求灵活调整模型参数和输出格式。

安装使用步骤

方法一

  1. 模型仓库 下载 faster-whisper-large-v2 模型放到models文件夹中。
  2. 在Windows系统中,双击run.bat;在Linux或Mac系统中,双击run.sh运行。
  3. 若要使用GPU,需自己下载安装CUDA12。

方法二

  1. 拉取代码: cd ./Voice2Text
  2. 创建Python虚拟环境: conda create -p ./env python==3.11.9 conda activate ./env
  3. 安装依赖: pip install -r requirements.txt
  4. 下载模型到models文件中,模型仓库为 https://huggingface.co/Systran,默认使用 faster-whisper-large-v2,若使用其他模型,需在代码里修改模型名称。
  5. 启动项目: python webUI.py

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】