Búsqueda híbrida
La búsqueda híbrida combina BM25 (matching léxico) y vector search (semántica) en una sola consulta. Cada motor recupera sus mejores resultados y un re-ranker los mezcla con pesos dinámicos según la naturaleza de la query. Captura lo mejor de ambos: precisión exacta + comprensión de intención.
¿Por qué híbrida?
BM25 y los embeddings son complementarios, no excluyentes:
- BM25 acierta cuando la consulta tiene palabras concretas que existen en el catálogo: códigos, SKUs, marcas, modelos exactos.
- Vectores aciertan cuando la consulta es ambigua, en lenguaje natural, con sinónimos o errores tipográficos.
Usar solo uno deja casos sin cubrir. La búsqueda híbrida ejecuta ambos en paralelo y combina los resultados.
Cómo se combinan los rankings
Hay tres enfoques principales:
- Reciprocal Rank Fusion (RRF): combina rankings sin necesidad de calibrar pesos. Para cada documento, score = Σ 1/(k + rank_i). Robusto y simple.
- Convex combination: score = α × score_BM25 + (1-α) × score_vector. Requiere normalizar scores y calibrar α.
- Cross-encoder re-ranking: los top-k de cada motor se re-evaluan con un modelo cross-encoder (BERT, ColBERT) que produce el orden final. Mayor precisión, mayor coste.
APPROSEARCH usa RRF como base + re-ranking con cross-encoder en el top-50 cuando el plan lo permite.
Pesos dinámicos por consulta
Una mejora reciente es ajustar los pesos según la naturaleza de la consulta:
- Si la query parece un código (números + letras): subir peso BM25.
- Si la query es lenguaje natural largo: subir peso vector.
- Si la query tiene errores tipográficos: subir tolerancia y peso vector.
Esto se decide con un clasificador ligero antes de ejecutar la búsqueda.
Búsqueda híbrida en APPROSEARCH
Plan Growth (59 €/mes) y superiores incluyen búsqueda híbrida con RRF + pesos dinámicos. Plan Scale (89 €/mes) añade re-ranking cross-encoder en el top-50. Plan Enterprise permite cross-encoders fine-tuneados sobre tu catálogo.
Lecturas recomendadas
- Lin et al. (2021). Pyserini: A Python Toolkit for Reproducible IR Research with Sparse and Dense Representations.
- Elastic blog: Hybrid retrieval.
- /glosario/bm25/ y /glosario/busqueda-semantica/ explican los dos motores que se combinan.
Última actualización: 2026-05-25
Lleva la teoría a tu tienda
APPROSEARCH implementa estos conceptos por defecto. Prueba 14 días gratis sin tarjeta.