这里记录一下如何安装使用 OpenAI 的 Whisper 来将我的英语听力生成文字版。Whisper 本身是个端到端语音识别模型,可以在本地将视频或者音频的内容比较准确的转成文本。
环境
根据 Whisper 文档中的描述,首先要有 Python 环境和 ffmpeg。
安装 ffmpeg 使用 brew install ffmpeg 即可。Python 因为这里推荐使用 3.9.9 版本,可以安装 pyenv 来管理 Python 版本。
安装 pyenv
首先 brew install pyenv,之后执行:
1 | echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc |
使用 pyenv 安装指定版本 Python,pyenv install 3.9.9;
查看已经安装的 Python 版本,pyenv versions;
查看可安装的 Python 版本,pyenv install --list;
切换要使用的 Python 版本,pyenv global 3.9.9;
安装 whisper
pip install -U openai-whisper
使用
我通常会先把某个视频文件转成 mp3 音频文件,可以使用命令 ffmpeg -i input.mkv -vn -ar 44100 -ac 2 -b:a 192k output.mp3,其中 input.mkv 是输入的视频文件,output.mp3 是输出的音频文件。
使用 whisper 将某个音频文件生成 srt 格式的字幕文件 whisper a.mp3 --model turbo --output_format srt --output_dir . --language English,这里使用 turbo 模型进行转换,第一次使用需要下载模型,后续不再需要。