Qué es CLIP: búsqueda por imagen con IA

¿Qué es CLIP?

CLIP es un modelo entrenado por OpenAI sobre 400 millones de pares (imagen, descripción) extraídos de internet. El objetivo de entrenamiento: dadas N imágenes y N descripciones, identificar qué descripción corresponde a cada imagen. Como subproducto el modelo aprende a producir embeddings comparables entre las dos modalidades.

Esto desbloquea casos de uso que antes requerían pipelines complejos:

Image-to-image search: subo una foto y encuentro productos visualmente similares en mi catálogo.
Text-to-image search: escribo “vestido rojo de noche con tirantes” y aparecen las imágenes de productos que coinciden, sin que ningún tag manual los etiquete.
Zero-shot classification: clasificar imágenes en categorías nuevas sin entrenamiento adicional.

Cómo funciona en e-commerce

Indexación: cada imagen de producto se pasa por el encoder visual de CLIP y se obtiene un vector de 512 o 768 dimensiones según la variante (ViT-B/32, ViT-L/14, etc.).
Consulta por imagen: el cliente sube una foto (suya o de inspiración). Se pasa por el mismo encoder y se obtiene su vector.
Búsqueda: se calcula similitud coseno con los vectores indexados y se devuelven los productos más cercanos.

Resultado en producción: latencia 200-800 ms (incluyendo upload + inferencia), precisión muy alta en moda, decoración y categorías visualmente diferenciables.

Limitaciones de CLIP

Sesgos del corpus: CLIP refleja sesgos del internet de 2020. En categorías no occidentales o muy específicas (electrónica industrial) la precisión cae.
Texto en imágenes: malo leyendo texto dentro de la imagen (logos, etiquetas).
Detalles finos: confunde productos visualmente parecidos pero funcionalmente distintos (zapatos vs zapatillas).
Modelos más nuevos: SigLIP (Google), DINOv2 (Meta), BLIP-2, Gemini Vision han superado CLIP en benchmarks recientes. En 2026 el campo está moviéndose rápido.

CLIP en APPROSEARCH

Plan Scale (89 €/mes) incluye búsqueda por imagen con CLIP. El cliente puede:

Habilitar el botón cámara/upload en el widget de búsqueda.
Personalizar qué imágenes del producto se indexan (principal, todas, primeras N).
Combinar resultados visuales con filtros tradicionales (rango de precio, categoría).

En Enterprise ofrecemos modelos alternativos (SigLIP, BLIP-2) y la opción de fine-tuning sobre el catálogo del cliente para mejorar la precisión vertical.

Lecturas recomendadas

Radford et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (paper original CLIP).
OpenAI docs: CLIP overview.
/glosario/embeddings/ explica cómo se almacenan los vectores.

Última actualización: 2026-05-25

CLIP

¿Qué es CLIP?

Cómo funciona en e-commerce

Limitaciones de CLIP

CLIP en APPROSEARCH

Lecturas recomendadas

Lleva la teoría a tu tienda