¿Está obsoleto RAG? Hoja de ruta 2025: del “contexto largo” a GraphRAG, Entrenamiento Consciente de Recuperación y KBLaM

Nota para el lector: En el último año se repite la pregunta de pasillo: “¿El contexto largo hará obsoleto a RAG?”. Más que responder sí/no, aquí contamos la historia: por qué muchos sintieron a RAG frágil, por qué más contexto no asegura respuestas confiables y cómo luce en 2025 una pila lista para ingeniería, de punta a punta.

Resumen (TL;DR)

RAG no muere: lo que muere es el RAG ingenuo de vectores + pegar contexto. En 2025, las pilas ganadoras convergen en cinco pilares: Recuperación estructurada (GraphRAG) + Entrenamiento sensible a la recuperación (Self‑RAG / RA‑DIT / RAFT) + Orquestación con agentes (Agentic RAG + MCP) + Actualidad/índices en streaming + (cuando convenga) actualizaciones a nivel de parámetros (fine‑tuning / edición del modelo). Presentamos criterios de evaluación, matriz de selección y lista de implantación, y mostramos cómo KBLaM construye sistemas fiables, controlables y explicables en entornos con alta regulación y baja conectividad.

1. Por qué “más contexto” ≠ el fin de RAG

Analogía: volcar todo en el prompt es darle a un modelo una mochila más grande; la recuperación es un mapa vivo que se actualiza y guía. Una mochila enorme no garantiza saber a dónde ir, ni por qué.

Coste y escalado: meter grandes corpus en el prompt dispara el coste; recuperar → curar sigue siendo más eficiente.
Actualidad: el conocimiento en parámetros no se actualiza a escala de minutos; las fuentes externas sí.
Auditoría y cumplimiento: RAG aporta cadenas de evidencia trazables (fuente, versión, fecha).
Privacidad y aislamientos: el conocimiento externalizado juega mejor con controles de acceso y separación por dominios.
Robustez: recuperar→reordenar→extraer es una tubería modular; el prompting puro de contexto largo es más difícil de depurar.

Conclusión: Más contexto reduce la frecuencia de recuperación, no elimina la necesidad de recuperar.

Viñeta: Una empresa de servicios volcó 30k páginas de SOP en prompts de contexto largo. El P95 de coste subió y las respuestas fluctuaron. Con “recuperar → paquete de evidencia → generación extractiva”, bajaron coste y latencia, y las respuestas quedaron auditables.

2. Modos de fallo del RAG ingenuo (evítalos)

Si RAG te parece endeble, a menudo no es que “la recuperación esté mal”, sino que el _enfoque_ lo está. Estas trampas son habituales:

Solo vectores, sin estructura (tablas/código/temporalidad).
Fragmentación burda que rompe la evidencia.
Sobrecarga de contexto que introduce ruido.
Sin recuperadores específicos ni reordenadores de cruce.
Sin política de frescura para contenidos volátiles.
Sin trazabilidad respuesta → evidencia → fuente.

3. El “juego de cinco piezas” en 2025

Hacer bien RAG es separar preocupaciones: hallar conocimiento, empaquetar evidencia y expresar respuestas. En 2025, las pilas maduras convergen en estas cinco piezas.

3.1 Recuperación estructurada (GraphRAG)

Índice conjunto texto + grafo; ideal para normativa, procesos, activos y razonamiento multi‑salto. Multi‑índice (BM25 + Denso + Cross‑Encoder), fusión grafo↔texto y paquetes de evidencia.

Ejemplo: En QA de normativa, primero halla la ruta “artículo → término → aplicabilidad” en el grafo, y luego extrae los fragmentos como paquete de evidencia: más estable y barato que verter diez párrafos.

3.2 Entrenamiento sensible a la recuperación (Self‑RAG / RA‑DIT / RAFT)

Enseña cuándo y qué recuperar; bucles de autoevaluación y señales de recuperación en el fine‑tuning → respuestas más fieles y explicables.

Analogía: Enseñar “cuándo abrir el diccionario y en qué página”, en vez de cargarlo entero siempre.

3.3 Agentes + MCP

Tareas reales = pasos múltiples con herramientas. Unifica herramientas vía MCP; añade límites de parada, presupuesto y latencia, y cachés.

Escenario: Un análisis de causas raíz puede requerir “revisar logs → ejecutar SQL → comparar telemetría → validar procedimientos”. Agentes orquestan pasos con resguardos; RAG aporta evidencia y explicación.

3.4 Frescura y streaming

Ingesta incremental, TTL, selección de versiones, evaluación rodante.

3.5 Actualizaciones en parámetros (opcional)

Para hechos cortos, estables, repetitivos: fine‑tuning ligero o edición quirúrgica. Mantén principio evidencia‑primero y bitácoras de procedencia.

4. KBLaM: línea base fiable para entornos restringidos y regulados

Con redes limitadas y cumplimiento estricto, “trazable y reproducible” pesa más que “elocuente”. KBLaM ofrece una base de ingeniería: del modelado de conocimiento a la trazabilidad de auditoría.

4.1 Componentes

Capa de conocimiento unificado (texto + KG + metadatos) · Planificador de recuperación · Constructor de cadenas de evidencia · Generación preferentemente extractiva con verificación · Evaluación y auditoría offline.

4.2 Flujo mínimo (pseudo)


intent = clasificar(q)
plan   = planificar(q)
C      = recuperar_multietapa(q)                     # BM25 + Denso + Cross-Encoder
si necesita_grafo: C = fusionar(C, rutas_grafo(q))
E      = empaquetar_evidencia(C)
a0     = generar(q, E)
a      = verificar_y_refinar(a0) si hace falta

0. ¿Qué problema resuelve este artículo?

La discusión recurrente del último año: “Si los LLM leen un millón de tokens de una sentada, ¿seguimos necesitando RAG?”. Unos dicen “mete todo al prompt”; otros ven en RAG una cadena de herramientas con mucho margen.

Vamos más allá del sí/no. Explicamos por qué el contexto largo no reemplaza a RAG, cómo modernizar RAG para que siga siendo central en 2025 y más allá, y qué hace falta para que funcione en proyectos reales. Es nuestra síntesis tras revisar la literatura y seguir la práctica empresarial.

Veremos:

Restricciones reales: por qué el contexto largo no lo arregla todo.
Autopsias: por qué falla el RAG ingenuo.
El “juego de cinco piezas”: solución de ingeniería moderna.
A fondo: GraphRAG y Entrenamiento Consciente de Recuperación.
Despliegue: cómo operarlo en entornos restringidos (p. ej., servidores domésticos, redes aisladas).
Mejoras y perspectiva: hacia dónde debería evolucionar RAG.

1. Por qué “más contexto” no es la meta final

De Gemini 1.5 a Claude 3, las ventanas crecieron—algunas hasta el millón de tokens. A simple vista parece “adiós recuperación”. En la práctica, una mochila más grande no garantiza un mejor viaje.

1.1 Coste y latencia: el presupuesto manda

Más tokens → más coste y latencia. Equipos reportan que meter un documento de 20k caracteres en ventanas 32k+ puede costar >5× por inferencia. Con concurrencia, el P95 pasa de <1s a varios segundos—inaceptable para apps interactivas.

1.2 Actualidad: las actualizaciones superan a los parámetros

El conocimiento empresarial cambia a diario; finanzas/noticias/social pueden cambiar por minuto. Hornear hechos en parámetros fuerza ajustes frecuentes—caros y arriesgados. RAG mantiene el conocimiento externo y intercambiable en caliente.

1.3 Cumplimiento y auditoría: la procedencia gana

Dominios regulados necesitan no solo respuestas correctas, sino procedencia: qué documento, qué cláusula, qué versión. Volcar al prompt mezcla versiones y pierde trazabilidad. RAG registra recuperaciones, fragmentos, versiones y tiempos para una auditoría reproducible.

1.4 Privacidad y compartimentos

Las empresas segmentan por niveles de acceso. Meter todo en una sola ventana sobre‑expone datos. RAG recupera por solicitud dentro de los límites de control de acceso.

Conclusión: el contexto largo es una mochila; RAG es un mapa vivo. Los sistemas reales necesitan ambos—complementarios, no sustitutos.

2. Por qué se rompe el RAG ingenuo—autopsias

El primer RAG suele ser: trocear PDFs → embed → k‑NN → top‑k → al prompt. Sirve en demos, falla en producción. Algunos modos reales de fallo:

2.1 Solo vectorial, ciego a la estructura

Tras trocear manuales, un equipo usó búsqueda vectorial pura. A “¿cada cuánto se mantiene la válvula B?” devolvió una “tabla de tamaños de válvulas”—relacionada, pero sin la política numérica. Tablas y series temporales requieren recuperadores dedicados.

2.2 Troceado brusco fragmenta hechos

Una definición quedó partida por longitud fija. “Condiciones de seguridad: (1) presión ≥ 0,35 MPa; (2) 35–55 ℃” se separó; el modelo vio solo (1) y omitió (2).

2.3 Volcar contexto añade ruido

Meter 10–20 fragmentos “por si acaso” diluye la atención. En triaje de alarmas, mucho texto sobre “principios/historia” enterró los “pasos” útiles.

2.4 Frescura, re‑rank y trazabilidad

Frescura: sin indexación incremental → leyes/avisos desactualizados.
Re‑rank: sin cross‑encoder → lo “relacionado” gana sobre lo “suficiente”.
Sin auditoría: respuestas sin rastro de evidencia.

No es la recuperación per se—es el método equivocado. Separa recuperación, empaquetado de evidencia, generación y verificación para desbloquear el valor de RAG.

3. El nuevo “juego de cinco piezas”: esqueleto, pasar páginas, herramientas, frescura y pequeños toques al modelo

De la investigación y despliegues, los stacks de 2025 convergen en cinco piezas, cada una corrigiendo un dolor del RAG ingenuo:

Componente	Rol	Dónde brilla	Desafíos
Recuperación estructurada (GraphRAG)	Esqueleto del conocimiento	Saltos múltiples, regulaciones, SOPs	Extracción y mantenimiento del KG
Entrenamiento consciente de recuperación	Cuándo/qué recuperar	QA y resumen	Coste de entrenamiento y datos
Orquestación agente	Planes multi‑paso con herramientas	Planes, consultas, cálculos	Seguridad y eficiencia
Gestión de frescura	Índice vivo	Noticias, mercados, alta actualidad	Monitoreo y política de versiones
Actualizaciones de parámetros (opcional)	Hechos pequeños y estables	Plantillas, desambiguación	Alucinaciones y alcance

Desglosamos cada pieza y cómo aterrizarla.

4. Recuperación estructurada (GraphRAG): construye el esqueleto

La recuperación con forma de grafo no es nueva; ahora es práctica a escala. La idea: añadir un esqueleto estructurado (KG o grafo entidad‑relación) junto a la “carne” de texto. Tareas complejas—regulaciones, procesos, análisis causal—siguen rutas por entidades y relaciones.

4.1 Construir el grafo: del texto al esqueleto

Trocea + extrae: por secciones/encabezados/párrafos con ventana deslizante; ejecuta NER/RE para extraer entidades/relaciones a un KG ligero. Mantén tipos simples (2–3) al inicio.

Desambiguar/unir: homónimos y sinónimos; similitud de huellas (Jaccard/Coseno) y reglas (códigos, IDs). Revisión humana para baja confianza.

4.2 Multi‑recuperador + re‑rank con cross‑encoder

BM25 (precisión) + denso (recobro) y re‑rank del top‑K con cross‑encoder. Reduce el “suena relevante pero no responde”.

4.3 Búsqueda de rutas: convertir QA en encontrar caminos

Amplía candidatos vía rutas en el KG; luego trae spans de texto. “Grafo‑luego‑texto” o al revés.

4.4 Paquetes de evidencia: rutas + spans

Devuelve un paquete estructurado: ruta de KG, spans, fuente/ID, versión, tiempo, offsets. El generador cita el paquete, reduce ruido y deja procedencia clara.

5. Entrenamiento consciente de recuperación: “pasar páginas”, no memorizar

Haz que el modelo sepa cuándo/qué recuperar y cómo citar.

5.1 Self‑RAG: auto‑chequeo + re‑recuperar

Borrador → auto‑evaluar → recuperar más → refinar hasta confianza o tope de pasos.

5.2 RAFT: etiquetar ruido vs. evidencia

Anota qué fragmentos recuperados distraen vs. cuáles valen; exige citas en entrenamiento.

5.3 RA‑DIT: aprendizaje bidireccional

Primero afina el LLM para citar; luego ajusta el recuperador (umbrales denso/BM25) con las salidas del modelo.

5.4 Camino práctico: empieza pequeño

Con anotaciones, empieza con RAFT en tríos pregunta‑respuesta‑evidencia. Con pocos datos, arranca sintético y revisa una muestra.

6. Orquestación agente: planes y herramientas

Muchas tareas no son de un turno: consultar manual → leer telemetría → calcular umbrales → comparar plan de mantenimiento → escribir pasos. RAG gestiona conocimiento; un Agente planifica y llama herramientas.

6.1 Registro de herramientas y enrutamiento

Registra herramientas (SQL, logs, hojas, APIs) con I/O y permisos. El Agente elige según intención y realimenta recuperación/LLM.

6.2 Límites y presupuestos

Topes duros: máx. 4–6 llamadas; presupuesto por consulta; límites de P95 y fallback seguro (“solo evidencia” si se excede).

6.3 Caché y reproducción

Cachea intenciones comunes con (resumen + hash de evidencia). Registra entradas/salidas para reproducibilidad y auditorías.

7. Frescura e índices en streaming

7.1 CDC y embeddings incrementales

Captura altas/bajas/cambios; trocea/embebe/actualiza por hora o más rápido en dominios volátiles.

7.2 TTL y política de versiones

TTLs por tipo de contenido y políticas conmutables: “último primero”, “estable primero” o “instantánea histórica”.

7.3 Evaluación rodante y monitoreo

Mantén un set de últimos 7 días; sigue tasa de acierto, NDCG, P95 y coste.

8. Actualizaciones a nivel de parámetros (opcional)

Usa LoRA/adapters para estilo/plantillas; edición quirúrgica para hechos raros. Mantén generación evidencia‑primero.

9. KBLaM: base confiable para entornos restringidos

Hemos desplegado KBLaM en servidores domésticos con recuperación externa y codificaciones estructurales. Ideas útiles para un RAG “confiable, controlable y explicable”.

9.1 Capa unificada de conocimiento

Une texto, tablas, grafos y metadatos; embeddings multilingües; registra procedencia (fuente/versión/tiempo/nivel).

9.2 Cadena de evidencia: pregunta → evidencia → respuesta

Enruta por intención; recupera/re‑rank; expande con KG; empaqueta evidencia (fuente/versión/ruta/offsets); genera; verifica por SQL/reglas si hace falta; registra para auditoría.

9.3 Flujo mínimo (pseudo)


def responder(pregunta):
	intención = clasificar(pregunta)
	ruta = seleccionar_ruta(intención)
	candidatos = recuperar(pregunta, ruta)
	if intención.requiere_grafo:
		camino = buscar_en_grafo(candidatos)
		candidatos = unir(candidatos, camino)
	evidencia = empaquetar(candidatos)
	borrador = generar(pregunta, evidencia)
	if requiere_verificar(borrador):
		resp = verificar_y_refinar(borrador)
	else:
		resp = borrador
	log(pregunta, evidencia, resp)
	return resp

10. Modelo de costes y ejemplos

10.1 Los tokens de entrada dominan

“Volcar contexto” puede subir entradas a 30k+ tokens; un paquete de evidencia suele requerir 1–3 spans (~500–700 tokens c/u) → ~1,5k–2,1k en total—muchas veces 10× menos.

10.2 Recuperar cuesta poco y ahorra mucho

BM25/denso son baratos; los re‑rankers con cross‑encoder son pequeños y van bien en CPU. “Recuperar y luego generar” gana a menudo.

10.3 Capacidades vs. coste

Para creación de contenido o citas largas, los híbridos funcionan: RAG para hechos, contexto largo para prosa. Cuenta tokens/llamadas/costes y elige según necesidad.

11. Checklist: de prototipo a producción

Gobernanza de datos: limpia PII; niveles de acceso; fuente/versión.
Troceado: por secciones con ventana deslizante.
Recuperación base: BM25 + denso + re‑rank; añade recuperadores de tablas/código/figuras.
Paquetes de evidencia: source_id, url, version, timestamp, offset, path, y answer_id.
Plantillas de generación: afirmación‑evidencia con citas en línea.
Límites de agente: lista de herramientas, pasos/presupuesto; caché de consultas frecuentes.
Frescura: crawling/embeddings incrementales; TTL y políticas; evaluación rodante.
Monitoreo/reproducción: paneles para recall/NDCG/P95/coste; reproduce pregunta→evidencia→respuesta→herramientas.
Despliegue gradual: canarios para modelos/estrategias; compara con baseline; aumenta poco a poco.
Operación del equipo: responsables claros y ciclos rápidos.

12. Próximos pasos: hacia dónde debería evolucionar RAG

12.1 Recuperación dinámica y gating

A escala, el coste manda; añade gating tipo ExpertRAG: solo recuperar cuando el conocimiento interno sea insuficiente y activar “expertos” dispersos por consulta.

12.2 Recuperación jerárquica o híbrida

Dos etapas “grueso → fino” (sparse por documento → denso en documento → cross‑encoder) ayudan en multi‑salto (véase HiRAG).

12.3 Conservar estructura en las codificaciones

Evita comprimir KGs a un vector; codifica tríos o subgrafos; añade numéricos/fechas; encadena rutas con CoT.

12.4 Compresión adaptativa y selección de conocimiento

Asigna capacidad vectorial por importancia (frecuencia, confianza, valor); descarta tokens irrelevantes—enrutamiento tipo MoE.

12.5 Recuperación multilingüe y cruzada

Embeddings multilingües (gtr/multi‑qa‑mpnet) con etiquetas/puertas de idioma; lo difícil es el razonamiento cruzado.

12.6 Chequeos externos y auto‑consistencia

Verificación post‑respuesta vía grafo/SQL; re‑recuperar o abstenerse ante contradicciones; comprobar coherencia de rutas; comprobaciones web opcionales.

13. Conclusión: el mapa no pasa de moda

RAG resuelve “encontrar y citar conocimiento”, en gran medida ortogonal al tamaño de la ventana. El contexto largo ayuda, pero no con coste, actualidad, auditorías o privacidad—ni con tareas estructuradas multi‑paso.

El “juego de cinco piezas” 2025 emerge: esqueleto + pasar páginas + herramientas + frescura + toques moderados al modelo. GraphRAG guía caminos complejos; el entrenamiento consciente enseña a citar; los agentes gestionan planes; la frescura evita caducidad; pequeñas actualizaciones ayudan a plantillas. La capa unificada, los paquetes de evidencia y las pistas de auditoría de KBLaM brindan un plano para entornos regulados.

Con gating dinámico, recuperación jerárquica, codificaciones estructuradas, compresión adaptativa y capacidad multilingüe, RAG seguirá evolucionando—posiblemente fusionándose más con modelos de inyección de conocimiento como KBLaM. Lo constante: con presupuesto y en escenarios complejos, la recuperación es la pareja más fiable del LLM. Lleva un mapa vivo; cualquier mochila pesa menos.

Referencias (lecturas recomendadas)

Akari Asai et al., Self‑RAG, arXiv, 2024.
Microsoft Research, GraphRAG, 2024.
Naman Bansal, Best Open‑Source Embedding Models Benchmarked and Ranked, Supermemory Blog, 2025.
Haoyu Huang et al., HiRAG: Retrieval‑Augmented Generation with Hierarchical Knowledge, arXiv, 2025.
Esmail Gumaan, ExpertRAG: Efficient RAG with Mixture of Experts, arXiv, 2025.
Hang Luo et al., Causal Graphs Meet Thoughts: Enhancing Complex Reasoning in Graph‑Augmented LLMs, arXiv, 2025.
Wei Liu et al., XRAG: Cross‑lingual Retrieval‑Augmented Generation, arXiv, 2025.

Suscríbete a nuevas entradas

Recibe actualizaciones por RSS o Email. Sin spam.

RSS 订阅 RSS Subscribe Suscribirse por RSS Suscripción por email