项目简介
本项目名为Voice2Text,是基于Python和OpenAI Whisper开发的语音转文字系统。它能够对音频、视频以及实时语音进行转文字处理,借助Faster Whisper模型进行音频特征提取和语音活动检测,可广泛应用于语音识别、语音助手等领域。
项目的主要特性和功能
- 支持多种输入类型,涵盖音频、视频文件以及实时语音的转文字功能。
- 采用Faster Whisper模型进行音频特征提取和语音活动检测,保证转文字的效率与准确性。
- 提供图形用户界面和命令行界面两种使用方式,适应不同用户的操作习惯。
- 格式兼容性强,支持MP3、WAV等多种常见音频格式。
- 可根据需求灵活调整模型参数和输出格式。
安装使用步骤
方法一
- 去 模型仓库 下载 faster-whisper-large-v2 模型放到models文件夹中。
- 在Windows系统中,双击run.bat;在Linux或Mac系统中,双击run.sh运行。
- 若要使用GPU,需自己下载安装CUDA12。
方法二
- 拉取代码:
cd ./Voice2Text
- 创建Python虚拟环境:
conda create -p ./env python==3.11.9 conda activate ./env
- 安装依赖:
pip install -r requirements.txt
- 下载模型到models文件中,模型仓库为 https://huggingface.co/Systran,默认使用 faster-whisper-large-v2,若使用其他模型,需在代码里修改模型名称。
- 启动项目:
python webUI.py
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】