Memoria Condicional a través de Búsqueda Escalable: Un Nuevo Eje de Esparcidad para Modelos de Lenguaje Grandes

Autor: Xin Cheng; Wangding Zeng; Damai Dai; Qinyu Chen; Bingxuan Wang; Zhenda Xie; Kezhao Huang; Xingkai Yu; Zhewen Hao; Yukun Li; Han Zhang; Huishuai Zhang; Dongyan Zhao; Wenfeng Liang

Resumen
#

QUÉ: Engram es un módulo de memoria condicional que moderniza los embeddings N-gram clásicos para lookup O(1), integrado en los modelos de lenguaje de gran tamaño (LLMs) para mejorar la eficiencia en la gestión de conocimientos estáticos y dependencias locales.

POR QUÉ: Engram resuelve el problema de la ineficiencia de los modelos Transformer al simular el recupero de conocimientos a través del cálculo, ofreciendo un nuevo eje de esparcimiento complementario al paradigma de cálculo condicional (MoE). Esto mejora el rendimiento en diversos dominios, incluidos el recupero de conocimientos, el razonamiento general y las tareas de codificación y matemáticas.

QUIÉNES: Los actores principales incluyen a los investigadores e ingenieros de DeepSeek-AI y Peking University, que han desarrollado Engram, y la comunidad de investigación de IA que estudia e implementa modelos de lenguaje avanzados.

DÓNDE: Engram se posiciona en el mercado de los modelos de lenguaje de gran tamaño (LLMs), integrándose con arquitecturas existentes como Mixture-of-Experts (MoE) para mejorar la eficiencia y el rendimiento.

CUÁNDO: Engram es una tecnología emergente que está ganando atención por su potencial para mejorar el rendimiento de los modelos de lenguaje. Su madurez está en fase de desarrollo, con estudios e implementaciones en curso.

IMPACTO EN LOS NEGOCIOS:

Oportunidades: Engram puede integrarse en el stack existente para mejorar el rendimiento de los modelos de lenguaje, reduciendo los costos computacionales y mejorando la eficiencia del recupero de conocimientos.
Riesgos: La competencia con otras tecnologías de memoria condicional y la adopción de nuevas arquitecturas de modelos de lenguaje podrían representar una amenaza.
Integración: Engram puede integrarse fácilmente con arquitecturas MoE existentes, ofreciendo una mejora inmediata del rendimiento sin la necesidad de reconfigurar completamente los modelos.

RESUMEN TÉCNICO:

Pila Tecnológica Principal: Engram utiliza embeddings N-gram modernizados, compresión de tokenizador, hashing multi-cabeza, puerta contextualizada y integración multi-rama. El modelo está implementado en Python y utiliza frameworks de deep learning como PyTorch.
Escalabilidad y Límites Arquitectónicos: Engram puede escalar hasta miles de millones de parámetros, con una dimensión del modelo de 175B parámetros. Su eficiencia está demostrada en escenarios de preentrenamiento a gran escala e inferencia.
Diferenciadores Técnicos Clave: Engram ofrece lookup O(1) para patrones estáticos, reduce la profundidad computacional necesaria para el recupero de conocimientos y libera capacidad de atención para el contexto global. Su eficiencia infraestructural permite el prefetching asincrónico de las embeddings, reduciendo el overhead de comunicación.

Detalles técnicos:

Pipeline de Engram: La pipeline de Engram incluye dos fases principales: recuperación y fusión. En la fase de recuperación, los contextos locales se mapean a entradas de memoria estáticas a través de hashing determinístico. En la fase de fusión, las embeddings recuperadas se modulan dinámicamente por el estado oculto actual y se refinan mediante una ligera convolución.
Ejemplos de aplicación:
- Recupero de Conocimientos: Engram mejora el recupero de conocimientos en benchmarks como MMLU, CMMLU y MMLU-Pro.
- Razonamiento General: Muestra ganancias significativas en benchmarks de razonamiento general como BBH, ARC-Challenge y DROP.
- Codificación y Matemáticas: Mejora el rendimiento en benchmarks de codificación y matemáticas como HumanEval, MATH y GSMK.
- Contexto Largo: Mejora las capacidades de recupero y razonamiento en contextos largos, como se demuestra en benchmarks como LongPPL y RULER.
Ejemplos de uso:
- Preentrenamiento: Engram se ha utilizado en modelos de preentrenamiento a gran escala, como Engram-B y Engram-B, que han demostrado mejoras significativas respecto a los baselines MoE.
- Inferencia: Durante la inferencia, Engram permite el prefetching asincrónico de las embeddings, reduciendo el overhead de comunicación y mejorando la eficiencia.
- Visualización de Puerta: La visualización del mecanismo de puerta de Engram muestra que el módulo identifica y recupera eficazmente patrones lingüísticos estereotipados, como entidades multi-token y frases formulaicas.

Casos de uso
#

Private AI Stack: Integración en pipelines propietarias
Soluciones para Clientes: Implementación para proyectos de clientes

Recursos
#

Enlaces Originales
#

Artículo recomendado y seleccionado por el equipo Human Technology eXcellence elaborado mediante inteligencia artificial (en este caso con LLM HTX-EU-Mistral3.1Small) el 2026-01-27 12:30 Fuente original:

Articoli Interessanti - Este artículo es parte de una serie.

Parte : GitHub - moltbot/moltbot: Tu propio asistente de IA personal. Cualquier SO. Cualquier plataforma. A la manera del langosta. 🦞

Parte : GitHub - aiming-lab/SimpleMem: SimpleMem: Memoria Eficiente de Por Vida para Agentes LLM

Parte : GitHub - mikekelly/claude-sneakpeek: Obtén una compilación paralela del código de Claude que desbloquea capacidades con bandera de características como el modo enjambre.

Parte : ¡Bienvenido - Documentación de Poke

Parte : Este artículo

Parte : NVIDIA PersonaPlex: IA Conversacional Natural con Cualquier Rol y Voz - NVIDIA ADLR

Parte : GitHub - different-ai/openwork: Una alternativa de código abierto a Claude Cowork, impulsada por OpenCode

Parte : GitHub - google/langextract: Una biblioteca de Python para extraer información estructurada de texto no estructurado utilizando LLMs con precisión.

Parte : GitHub - memodb-io/Acontext: Plataforma de datos para la ingeniería de contexto. Plataforma de datos de contexto que almacena, observa y aprende. Únete

Parte : GitHub - rberg27/doom-coding: Una guía sobre cómo usar tu smartphone para programar en cualquier lugar y en cualquier momento.

Parte : GitHub - bolt-foundry/gambit: Marco de trabajo para agentes para construir, ejecutar y verificar flujos de trabajo de LLM.