一个基于 OpenAI 的 Whisper 模型的开源语音转文本 API,利用 FastAPI 实现异步操作,支持多种格式的音视频文件转换,提供 CUDA 加速,并且预计会有模型优化和文本分析功能。
适用于语音识别、字幕生成和文本分析等场景。该项目基于 FastAPI 实现了高性能的 API 接口,支持异步任务队列和后台处理任务,使用 SQLite 数据库管理任务。项目支持多种音视频格式,通过 ffmpeg 进行格式转换,确保了高兼容性。
地址:https://github.com/Evil0ctal/Whisper-Speech-to-Text-API