Whisper JAX|视频转文字工具,支持中文且速度超快

 

Whisper JAX|视频转文字工具,支持中文且速度超快

Whisper JAX 是 OpenAI 的 Whisper 模型优化实践范例,它可将用户的即时录音、音频或是 YouTube 在线快速识别并转换为纯文本格式,也就是使用 AI 技术的视频声音转文字工具,支持中文。 这项服务使用 Whisper API 大家或许不陌生,如果你是 Mac 用户还能尝试另一个「MacWhisper」免费应用程序,这些工具都能将录音或影片转为文字逐字稿, 另外也有加入时间戳记功能,在处理类似工作时可以大幅节省时间。

 

依照说明,Whisper JAX 在 JAX 上运作,后端为 TPU v4-8,相较于 A100 GPU 的 PyTorch 速度快了 70 倍以上! 可说是目前最快的 Whisper API,我测试一段大约三分半的 YouTube 影片,转换为文字逐字稿的过程只花费不到五秒,即使更长的录音档或视频依然能在相当短的时间内完成,而且准确度很高。

必要时还能搭配 ChatGPT 进行修改,例如将转换的全文加入标点符号,这部分以 AI 进行操作又能省下可观的时间,剩下的就只要校稿即可,若有需要也能选择加入时间标记、翻译其他语言。

Whisper JAX 是 Hugging Face 开发的工具,托管在 Hugging Face 平台做为范例,用户可以免费使用,不过高峰时期可能会需要排队,排队序列会显示于示范页面右上角,如果不想要花时间等待也可以建立自己的 Inference Endpoints

 

Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

使用教学

STEP 1

启用 Whisper JAX 范例页面后从左上角可以看到三个选项:

  • Microphone:使用麦克风即时录音、转换为逐字稿。
  • Audio File:上传录音或音频档案转换为文字文件。
  • YouTube:直接贴上 YouTube 视频转文字或带有时间标签的文字文件。

Whisper JAX|视频转文字工具,支持中文且速度超快

STEP 2

在这里使用 YouTube 作为示例,直接将 YouTube 视频网址粘贴、任务选择 transcribe 也就是录制、直接把音频转逐字稿输出。

Whisper JAX|视频转文字工具,支持中文且速度超快

建议可选择「Return timestamps」回传带有时间戳记的文本文件,按下「Submit」就会开始处理,右边会显示进度。

Whisper JAX|视频转文字工具,支持中文且速度超快

STEP 3

完成后右侧就会显示从 YouTube 影片转换的逐字稿文字(Transcription),点击右上角「复制」取得所有内容,若有勾选回传时间戳记就会在每一段前面标示时间,对于要制作影片字幕也会很方便,最底下也会看到完成的时间,大概都在几秒钟就能辨识结束,非常有效率。

Whisper JAX|视频转文字工具,支持中文且速度超快

如果没有选中时间戳,识别出来的文字内容不会有标点符号,这时候我们可以把内文丢到 ChatGPT 并要求 AI 为以下文章加入适当的标点符号。

Whisper JAX|视频转文字工具,支持中文且速度超快

STEP 4

透过 ChatGPT 协助将转换后的文字加入适当标点符号,虽然有些段落还是怪怪的,至少在校稿时会轻松一些,但仔细看在转换时有部分的文字确实有同音、不同字的情形,依然要再次确认一下,不过整体来说准确度还是很高。

Whisper JAX|视频转文字工具,支持中文且速度超快

给TA打赏
共{{data.count}}人
人已打赏
工具类插件类

BG Remaker 基于强大的AI图像处理技术,支持抠图、去除背景、背景替换、AI背景

2023-10-1 22:55:02

工具类软件类

推荐一款Voicemod 国外变声器软件

2023-10-16 18:45:51

购物车
优惠劵
搜索