Guía práctica: instalación limpia, sin conflictos de CUDA y con comando corto para uso diario.
Objetivo
Tener un comando rápido para transcribir audio/video localmente:
wts archivo.webm
Con:
- Whisper large‑v3
- Funciona en GPU (si existe) o CPU
- Configuración estable en Windows
1. Requisitos
GPU opcional
Cualquier NVIDIA compatible con CUDA acelera el proceso.
Si no tienes GPU, funciona igual en CPU (más lento).
Mantener instalado
- Driver NVIDIA actualizado (solo si usarás GPU)
No es necesario instalar CUDA Toolkit ni herramientas de desarrollo.
Instalar FFmpeg (recomendado)
Whisper necesita FFmpeg para poder leer audio y video (mp4, mkv, webm, mov, etc.).
En Windows moderno se instala directamente con:
winget install Gyan.FFmpeg
ffmpeg -version
Si muestra la versión, ya puedes transcribir videos sin convertirlos previamente.
2. Instalar pipx
python -m pip install --user pipx
python -m pipx ensurepath
Cerrar la terminal y abrir otra.
3. Instalar Whisper (ctranslate2)
pipx install whisper-ctranslate2
Soporte GPU (opcional)
Instalar librerías CUDA dentro del entorno (no en el sistema):
pipx inject whisper-ctranslate2 nvidia-cublas-cu12 nvidia-cuda-runtime-cu12 nvidia-cudnn-cu12
4. Primera ejecución (descarga modelo)
GPU:
whisper-ctranslate2 archivo.mp4 --device cuda --model large-v3 --compute_type int8_float16 --beam_size 2 --language es
CPU:
whisper-ctranslate2 archivo.mp4 --device cpu --model large-v3 --compute_type int8 --beam_size 2 --language es
La primera vez descargará el modelo automáticamente.
5. Crear comando corto (alias permanente)
Abrir perfil PowerShell:
notepad $PROFILE
Agregar al final:
function wts {
whisper-ctranslate2 --device cuda --model large-v3 --compute_type int8_float16 --beam_size 2 --language es $args
}
Si no tienes GPU, usa esta versión:
function wts {
whisper-ctranslate2 --device cpu --model large-v3 --compute_type int8 --beam_size 2 --language es $args
}
Recargar perfil:
. $PROFILE
Uso:
wts video.mkv
«Si PowerShell te da error al intentar cargar el comando wts, ejecuta este comando una sola vez como Administrador:
Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
Puedes pasarle –language en para inglés como parámetro o bien dejarlo por defecto editando con notepad $PROFILE, todo depende que uses con más frecuencia.
6. Explicación de parámetros
compute_type int8_float16 (GPU)
Reduce memoria GPU manteniendo calidad casi idéntica.
compute_type int8 (CPU)
Reduce RAM y acelera CPU.
beam_size 2
Acelera mucho la transcripción con pérdida mínima de precisión.
large-v3
Mejor calidad disponible en Whisper.
7. Verificar uso de GPU (opcional)
Mientras transcribe:
nvidia-smi
Debe aparecer el proceso usando memoria y GPU.
Resultado final
Sistema limpio:
- Sin CUDA Toolkit
- Sin conflictos de librerías
- Funciona tanto en GPU como CPU
Listo para transcribir audio/video localmente de forma privada y rápida.
Notas
Puedes ajustar el equilibrio entre velocidad y precisión cambiando el modelo:
| Modelo | Uso recomendado | Velocidad | Calidad |
|---|---|---|---|
| tiny | pruebas rápidas | muy alta | baja |
| base | subtítulos rápidos | alta | media-baja |
| small | uso ligero | media-alta | media |
| medium | uso general | media | buena |
| large-v3 | máxima precisión | menor | excelente |
Regla práctica:
- PC lento → usar
smallomedium - GPU de 4 GB →
mediumolarge-v3conint8_float16 - Audios largos → bajar modelo antes que aumentar
beam_size
Ejemplo:
wts video.mp4 –model medium