OpenAI Whisper 可说是目前最强的语音转文字模型,最近因为有一些影片字幕的需求,原本是用之前我们曾介绍过的 Whisper JAX 线上工具,这款也是用目前最好的 large-v2,转换速度也快,但每部影片都要上传,转出来的文字虽然有时间点,贴在记事本後时间格式还是有一个标点符号不对,需要再手动改,因此蛮麻烦的,最後就决定直接将 OpenAI Whisper 装在电脑里,真的方便非常多,不仅速度更快,产生出来的格式也超多,不仅有直接能用的 SRT 字幕档,还有纯文字格式(.txt)、.tsv、.json 等等。
有些人可能认为安装步骤应该很难,也要有技术背景,事实上完全不用,简单几个步骤就能完成安装,下面分享给大家。
教你在 Windows 10/11 安装和使用 OpenAI Whisper(完全免费),轻松将影片、声音档转成文字和字幕档
OpenAI Whisper 是开源的,因此是完全免费,安装好後不用填任何 API 就能使用,也没有任何限制,但要注意电脑的 CPU 处理器或 GPU 显示卡规格,建议不要太入门,要不然转换速度可能会有点慢,用 NVIDIA 显卡的速度会比 CPU 来得快超多。
安装步骤基本上就 3个:
- 安装 Anaconda(这款软体已经内建 Python和 pip,所以不用另外安装,当然你也可以各别安装 Python 和 pip,就看你的选择,我是用 Anaconda)
- 用 Anaconda PowerShell Prompt 安装 Chocolatey、ffmpeg、Whisper
- 开始语音转文字(不只是声音档,影片档也支援)
- 选项:有 NVIDIA GPU的人,建议安装 PyTorch
1.安装 Anaconda
首先先到 Anaconda 的官网下载安装档,点击 Download 就会开始下载,档案还蛮大的超过 1GB,所以需要等待一点下载时间:
安装过程一直按下一步就好,不用调整任何东西:
安装好後,请打开 Anaconda Powershell Prompt,记得使用系统管理员身份执行,要不然安装过程可能会有问题:
如果是用系统管理员身份打开,在软体视窗的标题栏前面会写「系统管理员:」,预设路径也会是 C:WINDOWSsystem32,可以用这两个来判断。
2. 用 Anaconda PowerShell Prompt 安装 Chocolatey、FFmpeg、Whisper
首先是安装 Chocolatey,因为我们需要透过 Chocolatey 来安装 FFmpeg、Whisper,这边请先检查你的 Get-ExecutionPolicy 没有被限制,输入以下指令:
Get-ExecutionPolicy
如果是显示「Bypass」,那就没问题,可以进行下一步,但如果是显示「Restricted」,请输入以下指令,随後会看到一串描述,输入 Y 并按 Enter就修改完成:
Set-ExecutionPolicy AllSigned
确认为 Bypass後,就能开始安装 Chocolatey,请输入以下指令(如下图所示):
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
按 Enter 之後,就会开始安装,让它自动跑完即可。跑完後,接着就是安装 FFmpeg,请输入以下指令:
choco install ffmpeg
安装完成後,会问你是否要启用这个 Script,请输入 Y 并按 Enter,FFmpeg 这里就好了,再来是 Whisper模型:
安装 OpenAI Whisper 之前,请先重开 Anaconda PowerShell Prompt,记得一样用系统管理员的身份,然後输入下方指令:
pip install -U openai-whisper
跑完之後,安装步骤就全部完成了,可以开始准备语音转文字、影片转字幕了。
3. 开始语音转文字(不只是声音档,影片档也支援)
首先你必须将路径指向你要转换的档案位置,像我放在下载资料夹,就输入以下指令(返回上一资料夹的指令是 cd ..):
cd C:UsersRockyDownloads
这边先选择你要的模型,Whisper 现在有 7 种模型,都支援多国语言,越大辨识会越精准,但相对会消耗比较多资源,因此电脑规格没太差的人(特别是有 NVIDIA 显卡),推荐使用 large 以上,我是测试 large-v2,目前最新是 large-v3:
另外转换档案名称也要注意,不能有空白或 (),要不然会找不到该档案。
一切都没问题後,请输入以下指令,123.mp4 是我的档案名称,请改成你的,language 後面看你的来源档是什麽语言,中文就输入 Chinese,英文就输入 English,也支援其他语言,model 则是你要用的模型:
whisper 123.mp4 --language Chinese --model large-v2
就会开始转换,预设是使用 CPU 处理器,可以注意下图左边 CPU 使用率瞬间上升,GPU 完全没用到。CPU 速度真的蛮慢的,我这部影片 5 分多钟,花了 3 分钟左右才转完,所以如果你跟我一样有 NVIDIA 显卡,建议安装 PyTorch(下面会教),快非常多,我的是 RTX 3080 显卡,变成只需要 5~10 就完成:
转好之後,在你档案的资料夹中,就会自动建立好 .json、.srt、.tsv、.txt 和 .vtt格式,你可以根据需求看要保留哪几个:
SRT 字幕档是可以直接使用的,不用修改任何东西:
4. 选项:有 NVIDIA GPU 的人,建议安装 PyTorch
首先请先到 PyTorch 这个网页,选择适合你的版本(CUDA 11.8 或 CUDA 12.1),其他设定跟我一样就可以,接着下面 Run this Command 就会显示安装指令,将它复制起来贴在 Anaconda PowerShell Prompt(记得使用系统管理员身份开启,简单来说所有安装都需要用这身份才可以)。下方是 CUDA 12.1的指令:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
贴上後按下 Enter:
等安装跑完,就可以开始转换了:
PyTorch 安装好後,就变成改用 GPU 了,下图左边 GPU 瞬间上升到 100%,速度快超级多,一瞬间就完成:
总结
以上就是在 Windows 10/11 电脑里安装和使用 OpenAI Whisper 的方法,如果未来不想用,想要移除,就进到新增移除程式里,把 Anaconda、PyTorch给移除即可。