如何安装使用 Whisper

这里记录一下如何安装使用 OpenAI 的 Whisper 来将我的英语听力生成文字版。Whisper 本身是个端到端语音识别模型，可以在本地将视频或者音频的内容比较准确的转成文本。

环境

根据 Whisper 文档中的描述，首先要有 Python 环境和 ffmpeg。

安装 ffmpeg 使用 brew install ffmpeg 即可。Python 因为这里推荐使用 3.9.9 版本，可以安装 pyenv 来管理 Python 版本。

安装 pyenv

首先 brew install pyenv，之后执行：

1
2
3

echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo '[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init - zsh)"' >> ~/.zshrc

使用 pyenv 安装指定版本 Python，pyenv install 3.9.9；

查看已经安装的 Python 版本，pyenv versions；

查看可安装的 Python 版本，pyenv install --list；

切换要使用的 Python 版本，pyenv global 3.9.9；

安装 whisper

pip install -U openai-whisper

使用

我通常会先把某个视频文件转成 mp3 音频文件，可以使用命令 ffmpeg -i input.mkv -vn -ar 44100 -ac 2 -b:a 192k output.mp3，其中 input.mkv 是输入的视频文件，output.mp3 是输出的音频文件。

使用 whisper 将某个音频文件生成 srt 格式的字幕文件 whisper a.mp3 --model turbo --output_format srt --output_dir . --language English，这里使用 turbo 模型进行转换，第一次使用需要下载模型，后续不再需要。