CLIP
CLIP (Contrastive Language-Image Pre-training) es un modelo multimodal de OpenAI publicado en 2021 que embebe imágenes y textos en el mismo espacio vectorial. Permite buscar imágenes por descripción textual o productos similares a una imagen de referencia con una sola línea de código.
¿Qué es CLIP?
CLIP es un modelo entrenado por OpenAI sobre 400 millones de pares (imagen, descripción) extraídos de internet. El objetivo de entrenamiento: dadas N imágenes y N descripciones, identificar qué descripción corresponde a cada imagen. Como subproducto el modelo aprende a producir embeddings comparables entre las dos modalidades.
Esto desbloquea casos de uso que antes requerían pipelines complejos:
- Image-to-image search: subo una foto y encuentro productos visualmente similares en mi catálogo.
- Text-to-image search: escribo “vestido rojo de noche con tirantes” y aparecen las imágenes de productos que coinciden, sin que ningún tag manual los etiquete.
- Zero-shot classification: clasificar imágenes en categorías nuevas sin entrenamiento adicional.
Cómo funciona en e-commerce
- Indexación: cada imagen de producto se pasa por el encoder visual de CLIP y se obtiene un vector de 512 o 768 dimensiones según la variante (ViT-B/32, ViT-L/14, etc.).
- Consulta por imagen: el cliente sube una foto (suya o de inspiración). Se pasa por el mismo encoder y se obtiene su vector.
- Búsqueda: se calcula similitud coseno con los vectores indexados y se devuelven los productos más cercanos.
Resultado en producción: latencia 200-800 ms (incluyendo upload + inferencia), precisión muy alta en moda, decoración y categorías visualmente diferenciables.
Limitaciones de CLIP
- Sesgos del corpus: CLIP refleja sesgos del internet de 2020. En categorías no occidentales o muy específicas (electrónica industrial) la precisión cae.
- Texto en imágenes: malo leyendo texto dentro de la imagen (logos, etiquetas).
- Detalles finos: confunde productos visualmente parecidos pero funcionalmente distintos (zapatos vs zapatillas).
- Modelos más nuevos: SigLIP (Google), DINOv2 (Meta), BLIP-2, Gemini Vision han superado CLIP en benchmarks recientes. En 2026 el campo está moviéndose rápido.
CLIP en APPROSEARCH
Plan Scale (89 €/mes) incluye búsqueda por imagen con CLIP. El cliente puede:
- Habilitar el botón cámara/upload en el widget de búsqueda.
- Personalizar qué imágenes del producto se indexan (principal, todas, primeras N).
- Combinar resultados visuales con filtros tradicionales (rango de precio, categoría).
En Enterprise ofrecemos modelos alternativos (SigLIP, BLIP-2) y la opción de fine-tuning sobre el catálogo del cliente para mejorar la precisión vertical.
Lecturas recomendadas
- Radford et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (paper original CLIP).
- OpenAI docs: CLIP overview.
- /glosario/embeddings/ explica cómo se almacenan los vectores.
Última actualización: 2026-05-25
Lleva la teoría a tu tienda
APPROSEARCH implementa estos conceptos por defecto. Prueba 14 días gratis sin tarjeta.