语言识别模型whisper学习笔记
Whisper 是由 OpenAI 于 2022年9月 推出的开源自动语音识别(ASR)系统,旨在实现高精度、多语言的语音转文本及翻译任务。其核心目标是解决传统语音识别模型在噪声环境、口音多样性及多语言场景下的局限性。
一、开源代码库下载
代码库链接:https://github.com/openai/whisper
注:需要科学网络
依次点击进行下载。
下载好将文件夹拖进pycharm打开项目,如下。
但是由于没有项目所需要的环境,需要给根据报错依次安装环境,如上图缺少torch,则打开终端使用conda或者pip进行下载安装。
下载指令可以上pytorch官网查询:https://pytorch.org/get-started/locally/
终端运行以上复制的代码,安装确实的gpu版本pytorch。
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
发现提示numpy版本不兼容,强制重新安装兼容版本。()
pip install numpy==1.26.4
再次运行,发现缺少tqdm
安装tqdm
pip install tqdm
再次运行,发现缺少tiktoken
安装tiktoken
pip install tiktoken
再次运行,发现缺少numba
安装numba
pip install numba
二、调用whisper实现语音识别
2.1 python调用
import whispermodel = whisper.load_model("turbo")
result = model.transcribe("zyj.mp3") # 只需要将此路径更换为你所需要识别的语音文件即可。
print(result["text"])
2.2 命令行调用
whisper zyj.mp3 --language Japanese --model turbo
2.3 结果展示
测试mp3文件,为我录制的一段语音,说的就是“你好你好你好恭喜发财”,成功将语音识别转录成中文。