Whisper
Whisper es el modelo de reconocimiento automático de voz (ASR) publicado por OpenAI en 2022. Soporta 99 idiomas, transcripción y traducción, y es el estándar de facto para búsqueda por voz en interfaces web. Su precisión en español rural y acentos es notablemente superior a la de los ASR comerciales clásicos.
¿Qué es Whisper?
Whisper es una familia de modelos de Automatic Speech Recognition (ASR) entrenados sobre 680.000 horas de audio multilingüe etiquetado. Las variantes principales son tiny, base, small, medium, large y large-v3, con trade-offs entre tamaño, latencia y precisión.
En 2026 también existen variantes optimizadas como whisper-large-v3-turbo (más rápida con poca pérdida) y forks como faster-whisper (CTranslate2) que mejoran latencia y memoria significativamente.
Cómo funciona en e-commerce
- Captura de audio: el usuario pulsa el botón micrófono del widget de búsqueda. Se graba audio del Web Audio API.
- Transcripción: el audio se envía a Whisper (vía API de OpenAI o self-hosted). Devuelve el texto.
- Búsqueda: el texto pasa al motor de búsqueda (BM25 + vector) como una consulta normal.
Latencia total típica: 600-1.500 ms (depende del tamaño del modelo y la longitud del audio).
Casos de uso reales
- Manos ocupadas en cocina (recetas, electrodomésticos) o taller (herramientas).
- Mobile-first donde escribir queries largas es incómodo.
- Accesibilidad para usuarios con dificultades motoras o de visión.
- Búsquedas en lenguaje natural (“dónde está el suavizante hipoalergénico de la marca X que compré hace dos meses”).
Conversión observada en clientes APPROSEARCH: las búsquedas por voz tienen una tasa de conversión 30-50 % superior a las textuales del mismo dispositivo, probablemente porque el usuario expresa mejor su intención hablando.
Limitaciones
- Privacidad: el audio se envía al modelo. APPROSEARCH ofrece versión self-hosted en Enterprise para evitar transferencia a OpenAI.
- Ruido ambiental: la precisión cae en entornos ruidosos. Recomendamos noise suppression del navegador.
- Acentos muy marcados o jergas locales: Whisper rinde bien en español neutro y mexicano; baja en ciertos dialectos argentinos o caribeños cerrados.
- Coste: 0,006 USD por minuto de audio en la API. Para 10.000 búsquedas de voz/mes con 5 segundos de audio media: ~5 USD/mes adicionales.
Whisper en APPROSEARCH
Plan Scale (89 €/mes) incluye búsqueda por voz con Whisper. En Enterprise ofrecemos despliegue self-hosted (faster-whisper en GPU) para casos con requisitos de privacidad estrictos o volúmenes muy altos donde el coste por minuto se vuelve relevante.
Lecturas recomendadas
- Radford et al. (2022). Robust Speech Recognition via Large-Scale Weak Supervision (paper original).
- OpenAI docs: Whisper API.
- Repo: openai/whisper y SYSTRAN/faster-whisper.
Última actualización: 2026-05-25
Lleva la teoría a tu tienda
APPROSEARCH implementa estos conceptos por defecto. Prueba 14 días gratis sin tarjeta.