Embeddings vectoriales
Un embedding es una representación numérica de un texto (palabra, frase, producto) como un vector de cientos o miles de dimensiones, donde la cercanía entre vectores indica similitud semántica. Es la pieza fundacional de la búsqueda semántica moderna.
¿Qué son los embeddings?
Un embedding convierte texto en una lista de números (un vector) que captura su significado. Frases similares producen vectores cercanos en el espacio matemático; frases dispares quedan lejos. Esta propiedad permite buscar, agrupar y comparar textos por significado en lugar de por coincidencia de palabras.
Por ejemplo, los vectores de:
- “zapatillas para correr”
- “calzado deportivo”
- “sneakers de running”
estarán muy cerca entre sí, mientras que el vector de “sartén antiadherente” estará lejos, aunque comparta caracteres con alguna palabra.
Modelos populares en 2026
| Modelo | Proveedor | Dimensiones | Coste |
|---|---|---|---|
text-embedding-3-small | OpenAI | 1536 | 0,02 USD / 1M tokens |
text-embedding-3-large | OpenAI | 3072 | 0,13 USD / 1M tokens |
| Cohere Embed v3 | Cohere | 1024 | 0,10 USD / 1M tokens |
BGE-large (open source) | BAAI | 1024 | Self-host |
e5-large | Microsoft | 1024 | Self-host |
| Voyage AI | Voyage | 1024-1536 | Variable |
Aplicación en e-commerce
En APPROSEARCH cada producto se convierte en un embedding en el momento de la indexación. Cuando un cliente escribe una consulta, esta también se embebe y se buscan los productos cuyos vectores tengan mayor similitud coseno.
Ejemplo real: cliente busca “camisa elegante para boda”. BM25 podría no encontrar coincidencias si tus camisas están etiquetadas como “formal” o “ceremonia”. El embedding de la consulta es semánticamente cercano a “formal”, “elegante”, “evento”, “smoking” — el motor recupera las camisas adecuadas sin que el merchant haya configurado sinónimos.
Embeddings en APPROSEARCH
Por defecto usamos text-embedding-3-small (mejor relación coste/precisión). En el plan Scale puedes configurar tu proveedor preferido o tu propio modelo self-hosted (compatible con OpenAI API). En el plan Enterprise soportamos modelos custom fine-tuneados sobre tu catálogo para máxima precisión vertical.
Lecturas recomendadas
- Mikolov et al. (2013). Efficient Estimation of Word Representations in Vector Space. (paper fundacional Word2Vec).
- OpenAI guide: Embeddings.
- MTEB benchmark: Massive Text Embedding Benchmark.
- /glosario/vector-search/ explica cómo se almacenan e indexan los vectores.
Última actualización: 2026-05-25
Lleva la teoría a tu tienda
APPROSEARCH implementa estos conceptos por defecto. Prueba 14 días gratis sin tarjeta.