APPROSEARCH APPROSEARCH
Blog

BM25 vs vector search: cuándo usar cada uno en ecommerce

Diferencias entre BM25 y vector search, casos donde brilla cada uno y por qué la búsqueda híbrida es el estándar moderno en ecommerce.

· por APPROSEARCH
#BM25 #vector search #técnico #pillar

Si estás evaluando opciones de búsqueda para tu e-commerce o tu producto SaaS, vas a tener que tomar una decisión técnica: ¿BM25, vector search o ambos? Este artículo te explica las fortalezas y debilidades de cada uno, con ejemplos concretos, para que decidas con criterio.

Spoiler: en la mayoría de casos la respuesta es ambos, y por eso la búsqueda híbrida es el estándar moderno. Pero veamos por qué.

BM25 en una frase

BM25 es un algoritmo probabilístico de ranking léxico que puntúa documentos por relevancia a una consulta combinando frecuencia de términos (TF), frecuencia inversa de documento (IDF) y normalización por longitud. Es el motor que está debajo de Elasticsearch, OpenSearch, Lucene, Solr, Whoosh y muchísimos sistemas de búsqueda en producción.

Ver definición completa en glosario →

Vector search en una frase

Vector search es la técnica de recuperar documentos cuyos embeddings (representaciones vectoriales del significado) son más similares al embedding de la consulta, usando algoritmos de Approximate Nearest Neighbor (ANN) para escalar a millones de vectores con latencia de milisegundos.

Ver definición completa en glosario →

Diferencias clave

AspectoBM25Vector search
Tipo de matchingLéxico exactoSemántico aproximado
Maneja sinónimosSolo si los configurasAutomáticamente
Tolera typosCon fuzzy matching configuradoRobusto por diseño
Códigos / SKUsExcelenteMediocre
Lenguaje naturalPobreExcelente
Catálogo multilingüeRequiere indexación por idiomaModelos multilingües funcionan out-of-the-box
Cold start (catálogo nuevo)InmediatoRequiere indexar embeddings
Coste indexaciónBajo (CPU, segundos)Medio (GPU/API, minutos para 100k items)
Coste consultaMuy bajoMedio (cálculo vectorial)
Latencia típica< 10 ms20-80 ms
MantenibilidadConocido, probado, debuggableMás opaco, requiere instrumentación

Casos donde BM25 gana

1. Búsquedas con códigos exactos. Cliente busca RTX-4090-SUPRIM-X en una tienda de componentes. BM25 lo encuentra al instante con un score altísimo. Vector search lo embebe pero puede confundirlo con otros productos del mismo fabricante.

2. Tiendas técnicas con vocabulario muy estandarizado. Repuestos de automoción, ferretería industrial, electrónica B2B. El cliente busca el modelo o referencia exacta y espera ese resultado, no “productos similares”.

3. Catálogos muy pequeños (< 500 SKUs). El overhead operativo de mantener un sistema vectorial no compensa.

4. Casos de uso de operations search. Buscar dentro de logs, código fuente, documentación técnica con identificadores únicos.

Casos donde vector search gana

1. Lenguaje natural ambiguo. “regalo para mi madre que ama jardinería” → BM25 falla (cero matches léxicos), vector encuentra productos relevantes.

2. Sinónimos no anticipados. Cliente busca “sneakers” y tu catálogo dice “zapatillas”. Sin sinónimos manuales BM25 falla; vector lo resuelve automáticamente.

3. Variaciones lingüísticas. “móvil”, “teléfono”, “smartphone”, “celular”. Mantener sinónimos manuales para todas las variantes no escala. Embeddings los entienden.

4. Multilingüe. Cliente español en versión inglesa de la tienda escribe “vestido”. Con embeddings multilingües (text-embedding-3, BGE-multilingual) encuentra “dress” sin tradución manual.

5. Categorías ricas en intención. Moda, decoración, regalos, alimentación gourmet, viajes. Donde el cliente describe necesidad (“ropa cómoda para teletrabajo”, “decoración minimalista salón pequeño”) más que producto.

Casos donde ambos fallan (y qué hacer)

Hay queries donde ninguno funciona bien:

1. Consultas extremadamente cortas y polisémicas. “Apple” puede ser fruta o marca. BM25 acierta léxico pero no resuelve ambigüedad; vector tiende a decantarse por la marca por sesgo del corpus de entrenamiento.

Solución: clasificador de intención + facetas que ayuden al usuario a desambiguar.

2. Consultas con negación. “Vestidos sin escote pronunciado”. Ni BM25 ni vector entienden bien la negación.

Solución: parser de consulta + filtros expuestos como facetas.

3. Consultas multimodales. “Productos parecidos a esta foto pero más baratos”.

Solución: CLIP + filtros de rango de precio combinados.

Por qué la búsqueda híbrida es el estándar

Combinar BM25 + vector search resuelve casi todos los casos:

Consulta → BM25 (top 100) → Reciprocal Rank Fusion → top 20
       ↘ Vector search (top 100) ↗

                          Cross-encoder re-rank → top 10 final

Esta arquitectura captura:

  • Precisión léxica de BM25 para códigos y matches exactos.
  • Comprensión semántica del vector para lenguaje natural y sinónimos.
  • Re-ranking fino para el top que el usuario realmente ve.

Latencia total típica: 30-80 ms.

Ver explicación completa en glosario → /glosario/busqueda-hibrida/

Implementación pragmática

Tres caminos según madurez de tu equipo:

Opción A — Empezar con BM25 puro

Si tu tienda es pequeña o tu equipo no tiene experiencia con embeddings, BM25 puro (Elasticsearch, MeiliSearch, Typesense) es razonable. Resultados decentes, mantenibilidad clara. Cuando notes problemas (zero-results altos, abandono de búsqueda), pasa a híbrida.

Coste: bajo. Time-to-value: 1-2 semanas.

Opción B — SaaS híbrido directamente

Para la mayoría de tiendas mid-market lo más eficiente. APPROSEARCH, Algolia (Algolia AI), Klevu, Doofinder (planes superiores) ofrecen búsqueda híbrida llave en mano.

Coste: 19-500+ €/mes según volumen. Time-to-value: < 1 día.

Opción C — Self-hosted híbrido

Para equipos técnicos con volúmenes grandes que quieren control total: Weaviate, Qdrant o pgvector + OpenSearch BM25 + cross-encoder propio.

Coste: hosting + ops + dev. Time-to-value: 2-6 semanas.

Conclusión

BM25 y vector search no son sustitutos sino complementos. La búsqueda híbrida combina ambos y es lo que esperarías en 2026. Si estás evaluando proveedores o construyendo tu propia búsqueda, asegúrate de que la implementación es híbrida con re-ranking — no solo “vector sobre el catálogo” que es la solución naïve más común y produce peores resultados que un BM25 bien afinado.

Para profundizar:


Sobre el autor: APPROSEARCH es un SaaS de búsqueda híbrida (BM25 + vector + multimodal) para e-commerce. Si quieres probarlo, 14 días gratis sin tarjeta en /contacto/?intent=trial.

¿Quieres aplicarlo a tu tienda?

Prueba APPROSEARCH 14 días gratis. Sin tarjeta. Migración asistida desde tu proveedor actual.