Búsqueda semántica
La búsqueda semántica es una técnica que utiliza embeddings vectoriales para entender la intención y el significado detrás de una consulta, en lugar de coincidir palabra por palabra. En e-commerce permite que consultas como 'abrigo barato para invierno' devuelvan productos relevantes aunque ningún título contenga esas palabras exactas.
¿Qué es la búsqueda semántica?
La búsqueda semántica representa textos (consultas, productos, descripciones) como vectores numéricos en un espacio de alta dimensión donde la cercanía indica similitud de significado. Cuando un usuario busca “regalo para mi madre que ama el jardín”, el sistema convierte esa frase en un vector y busca los productos cuyos vectores estén más próximos: jardinería, herramientas, semillas, decoración exterior, libros sobre plantas.
Cómo funciona técnicamente
-
Indexación: cada producto se convierte en un vector usando un modelo de embeddings (OpenAI
text-embedding-3-small, Cohere, modelos open source como BGE o e5). Los vectores se almacenan en una base de datos especializada (Pinecone, Weaviate, Qdrant, Milvus, pgvector). -
Búsqueda: la consulta del usuario se convierte en el mismo espacio vectorial. Se calcula la similitud coseno entre el vector de consulta y los vectores de los productos. Los productos con mayor similitud aparecen primero.
-
Re-ranking: opcionalmente, los top-k resultados pasan por un modelo cross-encoder que afina el orden final.
Diferencias con BM25
| Aspecto | BM25 | Semántica |
|---|---|---|
| Base | Coincidencia léxica exacta | Significado y contexto |
| Manejo de sinónimos | Manual (diccionarios) | Automático |
| Tolerancia a typos | Mediana con fuzzy | Alta |
| Lenguaje natural | Bajo | Alto |
| Códigos y SKUs | Excelente | Mediocre |
| Coste computacional | Bajo | Alto (GPU para inferencia) |
| Coste indexación | Bajo | Medio-alto |
Cuándo usar búsqueda semántica
- Tiendas con catálogos grandes (> 10k SKUs).
- Categorías donde el cliente describe necesidad, no producto (“regalo cumpleaños”, “outfit para boda”).
- Verticales con vocabulario ambiguo (moda, alimentación, decoración).
- Sitios multilingües donde gestionar sinónimos manuales no escala.
No es la solución mágica para:
- Búsquedas por código de pieza, SKU, EAN.
- Catálogos pequeños donde la mantenibilidad pesa más que la sofisticación.
- Bases técnicas (electrónica, repuestos) donde la precisión léxica es crítica.
Búsqueda semántica en APPROSEARCH
APPROSEARCH ofrece búsqueda semántica como capa del motor híbrido desde el plan Growth (59 €/mes). Usamos embeddings de OpenAI text-embedding-3-small por defecto, con opción de configurar proveedores propios en el plan Scale. Los productos se indexan automáticamente con sus títulos, descripciones, categorías y atributos clave.
Lecturas recomendadas
- Karpukhin et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering.
- Pinecone learning center: What is semantic search?
- /glosario/embeddings/ explica la mecánica de los vectores.
- /glosario/busqueda-hibrida/ explica cómo combinar BM25 + semántica.
Última actualización: 2026-05-25
Lleva la teoría a tu tienda
APPROSEARCH implementa estos conceptos por defecto. Prueba 14 días gratis sin tarjeta.