Whisper JAX 是 OpenAI 的 Whisper 模型优化实践范例,它可将用户的即时录音、音频或是 YouTube 在线快速识别并转换为纯文本格式,也就是使用 AI 技术的视频声音转文字工具,支持中文。 这项服务使用 Whisper API 大家或许不陌生,如果你是 Mac 用户还能尝试另一个「MacWhisper」免费应用程序,这些工具都能将录音或影片转为文字逐字稿, 另外也有加入时间戳记功能,在处理类似工作时可以大幅节省时间。
依照说明,Whisper JAX 在 JAX 上运作,后端为 TPU v4-8,相较于 A100 GPU 的 PyTorch 速度快了 70 倍以上! 可说是目前最快的 Whisper API,我测试一段大约三分半的 YouTube 影片,转换为文字逐字稿的过程只花费不到五秒,即使更长的录音档或视频依然能在相当短的时间内完成,而且准确度很高。
必要时还能搭配 ChatGPT 进行修改,例如将转换的全文加入标点符号,这部分以 AI 进行操作又能省下可观的时间,剩下的就只要校稿即可,若有需要也能选择加入时间标记、翻译其他语言。
Whisper JAX 是 Hugging Face 开发的工具,托管在 Hugging Face 平台做为范例,用户可以免费使用,不过高峰时期可能会需要排队,排队序列会显示于示范页面右上角,如果不想要花时间等待也可以建立自己的 Inference Endpoints。
Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax
使用教学
STEP 1
启用 Whisper JAX 范例页面后从左上角可以看到三个选项:
- Microphone:使用麦克风即时录音、转换为逐字稿。
- Audio File:上传录音或音频档案转换为文字文件。
- YouTube:直接贴上 YouTube 视频转文字或带有时间标签的文字文件。
STEP 2
在这里使用 YouTube 作为示例,直接将 YouTube 视频网址粘贴、任务选择 transcribe 也就是录制、直接把音频转逐字稿输出。
建议可选择「Return timestamps」回传带有时间戳记的文本文件,按下「Submit」就会开始处理,右边会显示进度。
STEP 3
完成后右侧就会显示从 YouTube 影片转换的逐字稿文字(Transcription),点击右上角「复制」取得所有内容,若有勾选回传时间戳记就会在每一段前面标示时间,对于要制作影片字幕也会很方便,最底下也会看到完成的时间,大概都在几秒钟就能辨识结束,非常有效率。
如果没有选中时间戳,识别出来的文字内容不会有标点符号,这时候我们可以把内文丢到 ChatGPT 并要求 AI 为以下文章加入适当的标点符号。
STEP 4
透过 ChatGPT 协助将转换后的文字加入适当标点符号,虽然有些段落还是怪怪的,至少在校稿时会轻松一些,但仔细看在转换时有部分的文字确实有同音、不同字的情形,依然要再次确认一下,不过整体来说准确度还是很高。