Si estás evaluando opciones de búsqueda para tu e-commerce o tu producto SaaS, vas a tener que tomar una decisión técnica: ¿BM25, vector search o ambos? Este artículo te explica las fortalezas y debilidades de cada uno, con ejemplos concretos, para que decidas con criterio.
Spoiler: en la mayoría de casos la respuesta es ambos, y por eso la búsqueda híbrida es el estándar moderno. Pero veamos por qué.
BM25 en una frase
BM25 es un algoritmo probabilístico de ranking léxico que puntúa documentos por relevancia a una consulta combinando frecuencia de términos (TF), frecuencia inversa de documento (IDF) y normalización por longitud. Es el motor que está debajo de Elasticsearch, OpenSearch, Lucene, Solr, Whoosh y muchísimos sistemas de búsqueda en producción.
Ver definición completa en glosario →
Vector search en una frase
Vector search es la técnica de recuperar documentos cuyos embeddings (representaciones vectoriales del significado) son más similares al embedding de la consulta, usando algoritmos de Approximate Nearest Neighbor (ANN) para escalar a millones de vectores con latencia de milisegundos.
Ver definición completa en glosario →
Diferencias clave
| Aspecto | BM25 | Vector search |
|---|---|---|
| Tipo de matching | Léxico exacto | Semántico aproximado |
| Maneja sinónimos | Solo si los configuras | Automáticamente |
| Tolera typos | Con fuzzy matching configurado | Robusto por diseño |
| Códigos / SKUs | Excelente | Mediocre |
| Lenguaje natural | Pobre | Excelente |
| Catálogo multilingüe | Requiere indexación por idioma | Modelos multilingües funcionan out-of-the-box |
| Cold start (catálogo nuevo) | Inmediato | Requiere indexar embeddings |
| Coste indexación | Bajo (CPU, segundos) | Medio (GPU/API, minutos para 100k items) |
| Coste consulta | Muy bajo | Medio (cálculo vectorial) |
| Latencia típica | < 10 ms | 20-80 ms |
| Mantenibilidad | Conocido, probado, debuggable | Más opaco, requiere instrumentación |
Casos donde BM25 gana
1. Búsquedas con códigos exactos. Cliente busca RTX-4090-SUPRIM-X en una tienda de componentes. BM25 lo encuentra al instante con un score altísimo. Vector search lo embebe pero puede confundirlo con otros productos del mismo fabricante.
2. Tiendas técnicas con vocabulario muy estandarizado. Repuestos de automoción, ferretería industrial, electrónica B2B. El cliente busca el modelo o referencia exacta y espera ese resultado, no “productos similares”.
3. Catálogos muy pequeños (< 500 SKUs). El overhead operativo de mantener un sistema vectorial no compensa.
4. Casos de uso de operations search. Buscar dentro de logs, código fuente, documentación técnica con identificadores únicos.
Casos donde vector search gana
1. Lenguaje natural ambiguo. “regalo para mi madre que ama jardinería” → BM25 falla (cero matches léxicos), vector encuentra productos relevantes.
2. Sinónimos no anticipados. Cliente busca “sneakers” y tu catálogo dice “zapatillas”. Sin sinónimos manuales BM25 falla; vector lo resuelve automáticamente.
3. Variaciones lingüísticas. “móvil”, “teléfono”, “smartphone”, “celular”. Mantener sinónimos manuales para todas las variantes no escala. Embeddings los entienden.
4. Multilingüe. Cliente español en versión inglesa de la tienda escribe “vestido”. Con embeddings multilingües (text-embedding-3, BGE-multilingual) encuentra “dress” sin tradución manual.
5. Categorías ricas en intención. Moda, decoración, regalos, alimentación gourmet, viajes. Donde el cliente describe necesidad (“ropa cómoda para teletrabajo”, “decoración minimalista salón pequeño”) más que producto.
Casos donde ambos fallan (y qué hacer)
Hay queries donde ninguno funciona bien:
1. Consultas extremadamente cortas y polisémicas. “Apple” puede ser fruta o marca. BM25 acierta léxico pero no resuelve ambigüedad; vector tiende a decantarse por la marca por sesgo del corpus de entrenamiento.
Solución: clasificador de intención + facetas que ayuden al usuario a desambiguar.
2. Consultas con negación. “Vestidos sin escote pronunciado”. Ni BM25 ni vector entienden bien la negación.
Solución: parser de consulta + filtros expuestos como facetas.
3. Consultas multimodales. “Productos parecidos a esta foto pero más baratos”.
Solución: CLIP + filtros de rango de precio combinados.
Por qué la búsqueda híbrida es el estándar
Combinar BM25 + vector search resuelve casi todos los casos:
Consulta → BM25 (top 100) → Reciprocal Rank Fusion → top 20
↘ Vector search (top 100) ↗
↓
Cross-encoder re-rank → top 10 final
Esta arquitectura captura:
- Precisión léxica de BM25 para códigos y matches exactos.
- Comprensión semántica del vector para lenguaje natural y sinónimos.
- Re-ranking fino para el top que el usuario realmente ve.
Latencia total típica: 30-80 ms.
Ver explicación completa en glosario → /glosario/busqueda-hibrida/
Implementación pragmática
Tres caminos según madurez de tu equipo:
Opción A — Empezar con BM25 puro
Si tu tienda es pequeña o tu equipo no tiene experiencia con embeddings, BM25 puro (Elasticsearch, MeiliSearch, Typesense) es razonable. Resultados decentes, mantenibilidad clara. Cuando notes problemas (zero-results altos, abandono de búsqueda), pasa a híbrida.
Coste: bajo. Time-to-value: 1-2 semanas.
Opción B — SaaS híbrido directamente
Para la mayoría de tiendas mid-market lo más eficiente. APPROSEARCH, Algolia (Algolia AI), Klevu, Doofinder (planes superiores) ofrecen búsqueda híbrida llave en mano.
Coste: 19-500+ €/mes según volumen. Time-to-value: < 1 día.
Opción C — Self-hosted híbrido
Para equipos técnicos con volúmenes grandes que quieren control total: Weaviate, Qdrant o pgvector + OpenSearch BM25 + cross-encoder propio.
Coste: hosting + ops + dev. Time-to-value: 2-6 semanas.
Conclusión
BM25 y vector search no son sustitutos sino complementos. La búsqueda híbrida combina ambos y es lo que esperarías en 2026. Si estás evaluando proveedores o construyendo tu propia búsqueda, asegúrate de que la implementación es híbrida con re-ranking — no solo “vector sobre el catálogo” que es la solución naïve más común y produce peores resultados que un BM25 bien afinado.
Para profundizar:
- /glosario/bm25/ y /glosario/vector-search/ — definiciones canónicas.
- /glosario/busqueda-hibrida/ — cómo se combinan.
- /comparativas/approsearch-vs-algolia/ — proveedores con búsqueda híbrida.
Sobre el autor: APPROSEARCH es un SaaS de búsqueda híbrida (BM25 + vector + multimodal) para e-commerce. Si quieres probarlo, 14 días gratis sin tarjeta en /contacto/?intent=trial.