¿Qué es Whisper y Whisper.cpp?

Whisper es un modelo de inteligencia artificial desarrollado por OpenAI para la transcripción de voz a texto. Está entrenado en una gran cantidad de datos multilingües y de múltiples tareas, permitiendo la conversión precisa del habla en texto en varios idiomas.

Whisper.cpp es una implementación optimizada de Whisper en C++, diseñada para ejecutarse de manera eficiente en hardware de CPU sin depender de GPUs o servidores en la nube. Esto permite su uso en dispositivos locales, optimizando la transcripción de audio sin requerir grandes recursos computacionales.

En este artículo, aprenderemos cómo instalar y compilar Whisper.cpp en Windows utilizando Visual Studio 2022, FFmpeg y Git para la transcripción de audio a texto de forma local.

Requisitos previos

Antes de comenzar, es recomendable instalar Chocolatey, un gestor de paquetes para Windows que facilitará la instalación de las herramientas necesarias. No es obligatorio, pero ayudará a agilizar el proceso.

Para instalar Chocolatey, abre PowerShell como Administrador y ejecuta:

Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

Una vez instalado, cierra y vuelve a abrir PowerShell o la terminal de Visual Studio.

1. Instalar Git

Para clonar el repositorio de Whisper, necesitas Git. Puedes instalarlo desde su página oficial o con Chocolatey:

choco install git

2. Instalar Visual Studio 2022

Descarga e instala Visual Studio 2022 con los siguientes componentes:

Desarrollo de escritorio con C++
C++ CMake tools for Windows
Compilador y herramientas de C++ (MSVC)

También puedes instalarlo con Chocolatey:

choco install visualstudio2022community

3. Instalar FFmpeg

Para la conversión de archivos de audio, instalaremos FFmpeg. Descárgalo desde ffmpeg.org o usa Chocolatey:

choco install ffmpeg

4. Instalar CMake (Opcional si se usa Visual Studio directamente)

Si prefieres trabajar con CMake, instálalo desde cmake.org o usa:

choco install cmake

Compilar Whisper.cpp en Windows

1. Abrir la terminal de Visual Studio

Presiona Win + S, escribe Developer Command Prompt for VS y ábrelo.

2. Crear y preparar el directorio de trabajo

Ejecuta los siguientes comandos:

cd C:\
md whisper_src
cd whisper_src

3. Clonar y compilar Whisper.cpp

git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
cmake -S . -B build -G "Visual Studio 17 2022"
cmake --build build --config Release

4. Verificar la instalación

cd build\bin\Release
whisper-cli.exe --help

Si ves la lista de opciones de whisper-cli.exe, la instalación se realizó con éxito.

Descargar modelos de Whisper

Whisper usa modelos preentrenados para transcribir audio. Existen dos tipos principales:

Modelos sin .en: Admiten múltiples idiomas.
Modelos con .en: Optimizados solo para inglés, más rápidos y precisos en este idioma.

Modelos disponibles y características

Modelo	Precisión	Velocidad	Tamaño	Descripción
`ggml-tiny.bin`	Baja	Muy rápida	75 MB	Soporta múltiples idiomas, útil para tareas rápidas.
`ggml-tiny.en.bin`	Baja	Muy rápida	75 MB	Solo inglés, más rápido y preciso.
`ggml-base.bin`	Media	Rápida	142 MB	Mayor precisión, soporta múltiples idiomas.
`ggml-base.en.bin`	Media	Rápida	142 MB	Solo inglés, más eficiente en este idioma.
`ggml-small.bin`	Alta	Media	466 MB	Mejor precisión, adecuado para la mayoría de tareas en varios idiomas.
`ggml-small.en.bin`	Alta	Media	466 MB	Solo inglés, más rápido.
`ggml-medium.bin`	Muy Alta	Lenta	1.5 GB	Mayor precisión, pero requiere más recursos.
`ggml-medium.en.bin`	Muy Alta	Lenta	1.5 GB	Solo inglés, mejor rendimiento en este idioma.
`ggml-large.bin`	Máxima	Muy Lenta	3 GB	Modelo más preciso, soporta múltiples idiomas, pero es muy demandante en hardware.

Modelos cuantizados

Los modelos cuantizados (q5_1, q6_k, etc.) son versiones optimizadas para reducir el tamaño y mejorar la eficiencia en CPUs sin perder mucha precisión. Ejemplo:

curl -LO https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-base-q5_1.bin?download=true

🔹 Cuanto más grande es un modelo, más preciso, pero también más lento y consume más recursos.

Conclusión

Hemos instalado y compilado Whisper.cpp en Windows, descargado un modelo preentrenado y aprendido a convertir archivos de audio para su transcripción. Ahora puedes transcribir audio sin conexión de manera eficiente.