Optimización del Marco de Doble Vía Desacoplada

Resumen

En los últimos años, los grandes modelos están pasando de dominios generales a escenarios de aplicación altamente regulados como finanzas, salud, derecho y energía, pero los desafíos de ingeniería y ciencia no han disminuido. En este contexto, proponemos la idea general de "adaptación industrial de doble vía desacoplada": separando completamente en tiempo de ejecución la mejora de capacidades generales y la gobernanza del conocimiento industrial, se minimiza la contaminación y retroceso de parámetros, y se garantiza la frescura y trazabilidad del conocimiento. Específicamente, utilizamos la vía de parámetros para mejorar las capacidades lingüísticas y de razonamiento, y la vía no paramétrica para albergar conocimiento industrial actualizable, formando un ciclo cerrado en tiempo de ejecución mediante retroalimentación de un árbitro. Comparado con trabajos anteriores como KBLaM, Self‑RAG, RETRO, kNN‑Adapter, damos mayor importancia a los mecanismos sistemáticos de división y gobernanza.

Sin embargo, al planificar la investigación, adoptar un enfoque único para solidificar la ruta técnica no es apropiado, ya que este campo aún evoluciona rápidamente. Investigaciones recientes muestran que la memoria externa y los métodos de recuperación están iterando rápidamente; por ejemplo, HippoRAG, inspirado en la neurociencia, utiliza grafos de conocimiento y Personalized PageRank para lograr integración de conocimiento multiescalón en una sola recuperación, superando en rendimiento a los métodos RAG existentes y con menor costo^[1]; MemoRAG introduce un modelo ligero de largo alcance para construir memoria global de la base de datos, guiando la recuperación mediante pistas de respuestas aproximadas, superando significativamente al RAG tradicional en tareas complejas de texto largo^[2]; KBLaM mapea tripletas de conocimiento a vectores clave-valor continuos, inyectándolos en el modelo mediante atención rectangular, con complejidad que crece linealmente con la escala del conocimiento y soportando actualización dinámica^[3]; para el ajuste fino eficiente en parámetros, LoRA congela los pesos principales e inyecta matrices de bajo rango, reduciendo los parámetros entrenables en órdenes de magnitud mientras mantiene el rendimiento del modelo^[4], mientras que DoRA descompone los pesos en magnitud y dirección, usando LoRA para actualizar la parte direccional, aproximando la capacidad de aprendizaje del ajuste fino completo y manteniendo el costo de inferencia sin cambios^[5]. Además, la investigación en gobernanza de la memoria del modelo también aboga por establecer estándares de evaluación unificados y prestar atención a los sesgos de LLM‑como‑árbitro^[6]. En seguridad, las bases de datos vectoriales introducidas por RAG pueden exponer datos privados y provocar riesgos como reconstrucción inversa, uso excesivo compartido y envenenamiento de datos^[7].

Dados estos avances, ajustamos nuestro plan a "marco de doble vía + exploración multi-ruta", manteniendo el principio de desacoplamiento mientras comparamos sistemáticamente múltiples mecanismos para encontrar la mejor combinación y generar contribuciones académicas.

1 Objetivos de Investigación y Visión General

Continuamos insistiendo en dividir el sistema en Vía de Parámetros (Param‑Track) y Vía No Paramétrica (Nonparam‑Track):

Vía de Parámetros: Responsable de la comprensión del lenguaje, capacidades de razonamiento y control de estilo, sin contener hechos específicos. Para la adaptación eficiente de parámetros, planeamos experimentar con diferentes esquemas PEFT:
- Actualización de bajo rango o direccional (LoRA, DoRA/O‑LoRA): LoRA congela el modelo principal y utiliza actualizaciones de matrices de bajo rango^[4], DoRA descompone los pesos en magnitud y dirección, usando LoRA para actualizar la dirección mejorando así la capacidad de aprendizaje y manteniendo la eficiencia de inferencia^[5];
- Combinación híbrida o de múltiples expertos: Explorar ortogonalización de bases direccionales, enrutamiento dinámico o compuertas dispersas, permitiendo que múltiples unidades de habilidad no interfieran entre sí;
- Migración incremental y alineación intergeneracional: Probar alineación del espacio de pesos basada en Procrustes o CCA, reduciendo costos de actualización.
Vía No Paramétrica: Responsable de albergar conocimiento industrial e información temporal. Probaremos varios mecanismos de gobernanza del conocimiento:
- Token de conocimiento / atención rectangular (KBLaM/KB‑Adapter): Convertir tripletas de conocimiento en vectores clave-valor de longitud fija para inyectar en el modelo, eliminando latencia de recuperación y soportando actualización dinámica^[3];
- Grafo de conocimiento + recuperación multiescalón en un solo paso (HippoRAG): Construir grafos de conocimiento sin esquema, utilizando Personalized PageRank para completar razonamiento transdocumental en un solo paso, superando ya a métodos como IRCoT en preguntas y respuestas multiescalón^[1][8];
- Memoria global + recuperación guiada por pistas (MemoRAG): Usar un modelo ligero para generar memoria global y producir pistas, un modelo pesado recupera basándose en ellas y genera la respuesta final, adecuado para necesidades implícitas y consultas estructuradas^[2];
- Recuperación jerárquica en árbol (RAPTOR/IRCoT): Construir árboles de resumen mediante agrupamiento recursivo, recuperando información en diferentes niveles, logrando agregación de documentos largos^[9];
- Recuperación vectorial externa + memoria kNN: Usar bases de datos vectoriales y árboles de recuperación jerárquica para conocimiento temporal, y explorar kNN‑LM o kNN‑Adapter bajo control de seguridad;
- Memoria episódica y ajuste con RL (Memento): Explorar la combinación de memoria en línea con aprendizaje por refuerzo, mejorando la capacidad de adaptación del agente mediante memoria episódica.

Mediante un enrutador adaptativo, seleccionaremos y combinaremos dinámicamente entre las distintas vías no paramétricas en tiempo de ejecución, según la dificultad de la pregunta, desencadenantes industriales, incertidumbre del modelo y presupuesto de latencia. Nos referiremos a la "trifurcación" propuesta en la evaluación unificada para controlar el costo de combinación y la relación calidad-retorno, evitando que el modelo sature el contexto con toda la evidencia causando truncamiento y latencia.

2 Exploración Teórica y Metodológica

2.1 Motivación del Desacoplamiento y Soporte Teórico

La motivación para desacoplar físicamente en tiempo de ejecución las "capacidades generales" y el "conocimiento industrial" proviene de dos aspectos: primero, el problema de la gobernanza del conocimiento — escribir hechos en los parámetros causa olvido y retroceso, requiriendo costoso reajuste fino durante actualizaciones; segundo, los problemas de la cadena de recuperación aumentada — la recuperación externa en entornos reales es susceptible a ruido, latencia y competencia de datos. Investigaciones recientes muestran que la recuperación multiescalón en un solo paso puede integrar evidencia dispersa de una vez mediante grafos de conocimiento y Personalized PageRank^[1]; la inyección de tokens de memoria puede escalar linealmente y actualizarse dinámicamente^[3]; la memoria de doble sistema puede resolver la conexión de información bajo necesidades implícitas^[2]. Por lo tanto, el marco desacoplado no solo alivia la interferencia de memoria, sino que también proporciona un contenedor para estos mecanismos innovadores.

2.2 Investigación de Métodos en la Vía de Parámetros

La Vía de Parámetros debe garantizar que las capacidades generales no retrocedan o lo hagan mínimamente. Planeamos realizar las siguientes exploraciones:

Comparación de LoRA y DoRA: LoRA utiliza matrices de bajo rango para reducir parámetros entrenables y mantener rendimiento^[4], pero en escenarios multitarea/multiusuario puede ocurrir interferencia de subespacios. DoRA descompone pesos en magnitud y dirección, empleando LoRA para actualizar la dirección y mejorar la capacidad de aprendizaje manteniendo el costo de inferencia; múltiples experimentos muestran que DoRA supera a LoRA en tareas multimodales^[5].
Subespacios ortogonales o de baja superposición: Usar regularización ortogonal o mezcla de expertos para mapear diferentes unidades de habilidad a bases direccionales casi ortogonales, reduciendo conflictos de fusión.
Mezcla dinámica y fusión incremental: Explorar mecanismos de compuerta dinámica como MoE o MoLa, permitiendo cargar habilidades bajo demanda; durante actualizaciones, emplear alineación por rotación mínima para reducir degradación.

2.3 Investigación de Métodos en la Vía No Paramétrica

La exploración de la Vía No Paramétrica se centrará en diferentes estrategias de memoria y recuperación:

Atención rectangular y tokens de conocimiento (KBLaM): Mapeando tripletas de conocimiento a vectores clave-valor fijos e inyectándolos en el modelo, KBLaM evita la cadena de recuperación externa, con complejidad que aumenta linealmente con la escala del conocimiento, permitiendo inyectar más de 10,000 entradas de conocimiento en modelos de 8B, y soportando adición y eliminación dinámicas^[3].
Indexación de grafos de conocimiento y Personalized PageRank (HippoRAG): Utilizar LLM para convertir corpus en grafos de conocimiento sin esquema, luego ejecutar PPR en conceptos centrales de la consulta, completando recuperación multiescalón en un solo paso^[1][8]. Este mecanismo supera a IRCoT en benchmarks de preguntas y respuestas multiescalón, con menor costo.
Memoria global y guiada por pistas (MemoRAG): Mediante un modelo ligero de contexto largo construir memoria global de la base de datos, generar respuestas aproximadas como pistas, guiando a un modelo pesado para recuperar y generar la respuesta final, adecuado para tareas con necesidades de información implícitas o consultas poco claras^[2].
Recuperación jerárquica y estructura de árbol (RAPTOR/IRCoT): Agrupamiento recursivo y resumen para construir árboles de recuperación, ejecutar localización gruesa y fina de arriba hacia abajo en documentos largos, resolviendo efectivamente la agregación de textos largos^[9].
Otras extensiones no paramétricas: Incluyendo kNN‑LM (utilizando incrustaciones de vecinos más cercanos como memoria externa), bloques de memoria a nivel de párrafo (como RETRO), edición de conocimiento y parcheo local (ROME/MEMIT), y el marco Memento que combina memoria episódica con aprendizaje por refuerzo.

2.4 Mecanismo Arbitral y Guía de Decodificación

Para garantizar factualidad, consistencia lógica y terminología normativa, construiremos un módulo arbitral discriminativo que evalúe las respuestas generadas en términos de consistencia de evidencia, corrección lógica y expresión normativa. Considerando que LLM-como-árbitro presenta problemas de posición, orden y autosesgo^[6], emplearemos validación cruzada multimodelo, corrección con datos anotados y aleatorización del orden de salida para reducir el sesgo. La puntuación de salida del árbitro servirá como señal de recompensa para guiar al modelo generativo a ajustar la distribución de probabilidades durante la decodificación, logrando una optimización en línea ligera. También exploraremos estrategias como RLHF/RLAIF, reescritura por edición mínima, para mejorar la calidad en ciclo cerrado durante la decodificación, y registraremos la ruta de evidencia para auditoría.

3 Plan y Cronograma

Para garantizar la viabilidad del proyecto y cuantificar objetivos por etapas, proponemos el siguiente cronograma (en meses, considerando 12 meses):

Etapa	Rango de Tiempo	Tareas Clave	Resultados Esperados
Análisis de Requerimientos y Construcción de Línea Base	Meses 1–3	Revisar requerimientos clave de industrias altamente reguladas; recopilar/limpiar corpus del dominio; reproducir y evaluar RAG estándar, Self‑RAG, PEFT de línea base (LoRA, DoRA) y esquemas de inyección de conocimiento (KBLaM) en tareas industriales	Formar conjunto de datos y métricas de evaluación; informe de rendimiento de línea base
Exploración Multi-mecanismo (Vía No Paramétrica)	Meses 4–7	Implementar métodos representativos de recuperación/memoria como HippoRAG, MemoRAG, RAPTOR; desarrollar pipeline de construcción de grafos de conocimiento y métodos de extracción de tripletas; comparar rendimiento y latencia de diferentes métodos en preguntas y respuestas multiescalón y tareas dependientes de regulaciones	Informe comparativo de esquemas no paramétricos; análisis preliminar de ventajas y cuellos de botella
Extensión y Mezcla de la Vía de Parámetros	Meses 5–8	Profundizar en PEFT como LoRA, DoRA, O‑LoRA, AdapterFusion; explorar ortogonalización de bases direccionales y enrutamiento dinámico; combinar con experimentos de vía no paramétrica para analizar retroceso de capacidades generales y estabilidad de fusión	Esquema de optimización de vía de parámetros; paquetes de pesos para habilidades específicas
Modelo Arbitral y Optimización en Ciclo Cerrado	Meses 7–9	Construir conjunto de datos de evaluación para árbitros, destilar modelos fuertos y corregir con anotaciones humanas; diseñar guía de decodificación basada en recompensas; realizar experimentos de reescritura por segmentos	Modelo arbitral y su informe de evaluación; comparación de rendimiento en ciclo cerrado de decodificación
Integración y Experimentos Comparativos	Meses 9–11	Combinar vía de parámetros con diferentes vías no paramét

Suscríbete a nuevas entradas

Recibe actualizaciones por RSS o Email. Sin spam.

RSS 订阅 RSS Subscribe Suscribirse por RSS Suscripción por email

Marco de Adaptación Industrial de Modelos de Gran Tamaño con Desacoplamiento de Doble Vía