【ASR技术】WhisperX安装使用

2024/11/19 20:53:21 来源：https://blog.csdn.net/PROGRAM_anywhere/article/details/143835749 浏览: 次关键词：【ASR技术】WhisperX安装使用

介绍

WhisperX 是一个开源的自动语音识别（ASR）项目，由 m-bain 开发。该项目基于 OpenAI 的 Whisper 模型，通过引入批量推理、强制音素对齐和语音活动检测等技术。提供快速自动语音识别（large-v2 为 70 倍实时），具有单词级时间戳和说话人分类。
WhisperX 的核心技术包括：
批量推理：利用 faster-whisper 后端，实现了高效的批量推理，大幅提升了转录速度。
强制音素对齐：通过 wav2vec2 对齐模型，提供了精确的单词级时间戳。
说话人识别：集成了 pyannote-audio 进行说话人分割，实现了多说话人 ASR。
语音活动检测（VAD）：预处理阶段使用 VAD，减少了幻听现象，同时不影响转录准确性。

安装

官网：https://github.com/m-bain/whisperx?tab=readme-ov-file
参考安装：https://www.bilibili.com/opus/902027713218347033
上面介绍的比较详细了，下面只描述一下个人安装过程遇见的问题

conda安装国内镜像源

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud//pytorch/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/pro/#设置搜索时显示通道地址
conda config --set show_channel_urls yes

直接运行whisperx会有Timeout连接错误，程序第一次运行会去下载镜像，需要使用HuggingFace镜像源，添加到环境变量中去

HF_ENDPOINT = "https://hf-mirror.com"

遇见报错：找不到cudnn_ops64_9.dll
cudnn和cuda重新安装了一次，还是报错，最后还是手动添加到环境变量中去。

到安装目录中，手动搜索【cudnn_ops64_9.dll】，找到路径之后添加到环境变量中去

最好使用管理员身份运行【Anaconda Powershell Prompt】

使用

whisperx 1.mp3 --model large --language zh

在这里插入图片描述
精确到毫秒级的单词识别（json文件）

【ASR技术】WhisperX安装使用

介绍

安装

使用

相关资讯

热文排行

最新新闻

推荐新闻

热搜词