0%

如何安装使用 Whisper

这里记录一下如何安装使用 OpenAI 的 Whisper 来将我的英语听力生成文字版。Whisper 本身是个端到端语音识别模型,可以在本地将视频或者音频的内容比较准确的转成文本。

环境

根据 Whisper 文档中的描述,首先要有 Python 环境和 ffmpeg。

安装 ffmpeg 使用 brew install ffmpeg 即可。Python 因为这里推荐使用 3.9.9 版本,可以安装 pyenv 来管理 Python 版本。

安装 pyenv

首先 brew install pyenv,之后执行:

1
2
3
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo '[[ -d $PYENV_ROOT/bin ]] && export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init - zsh)"' >> ~/.zshrc

使用 pyenv 安装指定版本 Python,pyenv install 3.9.9

查看已经安装的 Python 版本,pyenv versions

查看可安装的 Python 版本,pyenv install --list

切换要使用的 Python 版本,pyenv global 3.9.9

安装 whisper

pip install -U openai-whisper

使用

我通常会先把某个视频文件转成 mp3 音频文件,可以使用命令 ffmpeg -i input.mkv -vn -ar 44100 -ac 2 -b:a 192k output.mp3,其中 input.mkv 是输入的视频文件,output.mp3 是输出的音频文件。

使用 whisper 将某个音频文件生成 srt 格式的字幕文件 whisper a.mp3 --model turbo --output_format srt --output_dir . --language English,这里使用 turbo 模型进行转换,第一次使用需要下载模型,后续不再需要。