Qué es Whisper: búsqueda por voz con IA

Whisper

Whisper es el modelo de reconocimiento automático de voz (ASR) publicado por OpenAI en 2022. Soporta 99 idiomas, transcripción y traducción, y es el estándar de facto para búsqueda por voz en interfaces web. Su precisión en español rural y acentos es notablemente superior a la de los ASR comerciales clásicos.

¿Qué es Whisper?

Whisper es una familia de modelos de Automatic Speech Recognition (ASR) entrenados sobre 680.000 horas de audio multilingüe etiquetado. Las variantes principales son tiny, base, small, medium, large y large-v3, con trade-offs entre tamaño, latencia y precisión.

En 2026 también existen variantes optimizadas como whisper-large-v3-turbo (más rápida con poca pérdida) y forks como faster-whisper (CTranslate2) que mejoran latencia y memoria significativamente.

Cómo funciona en e-commerce

Captura de audio: el usuario pulsa el botón micrófono del widget de búsqueda. Se graba audio del Web Audio API.
Transcripción: el audio se envía a Whisper (vía API de OpenAI o self-hosted). Devuelve el texto.
Búsqueda: el texto pasa al motor de búsqueda (BM25 + vector) como una consulta normal.

Latencia total típica: 600-1.500 ms (depende del tamaño del modelo y la longitud del audio).

Casos de uso reales

Manos ocupadas en cocina (recetas, electrodomésticos) o taller (herramientas).
Mobile-first donde escribir queries largas es incómodo.
Accesibilidad para usuarios con dificultades motoras o de visión.
Búsquedas en lenguaje natural (“dónde está el suavizante hipoalergénico de la marca X que compré hace dos meses”).

Conversión observada en clientes APPROSEARCH: las búsquedas por voz tienen una tasa de conversión 30-50 % superior a las textuales del mismo dispositivo, probablemente porque el usuario expresa mejor su intención hablando.

Limitaciones

Privacidad: el audio se envía al modelo. APPROSEARCH ofrece versión self-hosted en Enterprise para evitar transferencia a OpenAI.
Ruido ambiental: la precisión cae en entornos ruidosos. Recomendamos noise suppression del navegador.
Acentos muy marcados o jergas locales: Whisper rinde bien en español neutro y mexicano; baja en ciertos dialectos argentinos o caribeños cerrados.
Coste: 0,006 USD por minuto de audio en la API. Para 10.000 búsquedas de voz/mes con 5 segundos de audio media: ~5 USD/mes adicionales.

Whisper en APPROSEARCH

Plan Scale (89 €/mes) incluye búsqueda por voz con Whisper. En Enterprise ofrecemos despliegue self-hosted (faster-whisper en GPU) para casos con requisitos de privacidad estrictos o volúmenes muy altos donde el coste por minuto se vuelve relevante.

Lecturas recomendadas

Radford et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision (paper original).
OpenAI docs: Whisper API.
Repo: openai/whisper y SYSTRAN/faster-whisper.

Última actualización: 2026-05-25