Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

25 gennaio 2026·654 parole·4 minuti

Research Foundation Model LLM

#### Fonte

Tipo: PDF Document
Link originale:
Data pubblicazione: 2026-01-27

Autore: Xin Cheng; Wangding Zeng; Damai Dai; Qinyu Chen; Bingxuan Wang; Zhenda Xie; Kezhao Huang; Xingkai Yu; Zhewen Hao; Yukun Li; Han Zhang; Huishuai Zhang; Dongyan Zhao; Wenfeng Liang

Sintesi
#

WHAT: Engram è un modulo di memoria condizionale che modernizza gli embedding N-gram classici per lookup O(1), integrato nei modelli di linguaggio di grandi dimensioni (LLMs) per migliorare l’efficienza della gestione delle conoscenze statiche e delle dipendenze locali.

WHY: Engram risolve il problema dell’inefficienza dei modelli Transformer nel simulare il recupero delle conoscenze attraverso la computazione, offrendo un nuovo asse di sparsità complementare al paradigma di computazione condizionale (MoE). Questo migliora le prestazioni in vari domini, inclusi il recupero delle conoscenze, il ragionamento generale, e i compiti di codifica e matematica.

WHO: Gli attori principali includono i ricercatori e gli ingegneri di DeepSeek-AI e Peking University, che hanno sviluppato Engram, e la comunità di ricerca AI che studia e implementa modelli di linguaggio avanzati.

WHERE: Engram si posiziona nel mercato dei modelli di linguaggio di grandi dimensioni (LLMs), integrandosi con architetture esistenti come Mixture-of-Experts (MoE) per migliorare l’efficienza e le prestazioni.

WHEN: Engram è una tecnologia emergente che sta guadagnando attenzione per il suo potenziale di migliorare le prestazioni dei modelli di linguaggio. La sua maturità è in fase di sviluppo, con studi e implementazioni in corso.

BUSINESS IMPACT:

Opportunità: Engram può essere integrato nello stack esistente per migliorare le prestazioni dei modelli di linguaggio, riducendo i costi computazionali e migliorando l’efficienza del recupero delle conoscenze.
Rischi: La competizione con altre tecnologie di memoria condizionale e l’adozione di nuove architetture di modelli di linguaggio potrebbe rappresentare una minaccia.
Integrazione: Engram può essere facilmente integrato con architetture MoE esistenti, offrendo un miglioramento immediato delle prestazioni senza la necessità di riallestire completamente i modelli.

TECHNICAL SUMMARY:

Core Technology Stack: Engram utilizza embedding N-gram modernizzati, tokenizer compression, multi-head hashing, contextualized gating, e multi-branch integration. Il modello è implementato in Python e utilizza framework di deep learning come PyTorch.
Scalabilità e Limiti Architetturali: Engram può scalare fino a miliardi di parametri, con una dimensione del modello di 175B parametri. La sua efficienza è dimostrata in scenari di pre-training su larga scala e inferenza.
Differenziatori Tecnici Chiave: Engram offre lookup O(1) per pattern statici, riduce la profondità computazionale necessaria per il recupero delle conoscenze, e libera capacità di attenzione per il contesto globale. La sua efficienza infrastrutturale permette il prefetching asincrono delle embeddings, riducendo l’overhead di comunicazione.

Dettagli tecnici:

Pipeline di Engram: La pipeline di Engram include due fasi principali: retrieval e fusion. Nella fase di retrieval, i contesti locali vengono mappati a voci di memoria statiche tramite hashing deterministico. Nella fase di fusion, le embeddings recuperate vengono modulate dinamicamente dallo stato nascosto corrente e raffinate tramite una leggera convoluzione.
Esempi di applicazione:
- Recupero delle Conoscenze: Engram migliora il recupero delle conoscenze in benchmark come MMLU, CMMLU, e MMLU-Pro.
- Ragionamento Generale: Mostra guadagni significativi in benchmark di ragionamento generale come BBH, ARC-Challenge, e DROP.
- Codifica e Matematica: Migliora le prestazioni in benchmark di codifica e matematica come HumanEval, MATH, e GSMK.
- Contesto Lungo: Migliora le capacità di recupero e ragionamento in contesti lunghi, come dimostrato in benchmark come LongPPL e RULER.
Esempi di utilizzo:
- Pre-training: Engram è stato utilizzato in modelli di pre-training su larga scala, come Engram-B e Engram-B, che hanno dimostrato miglioramenti significativi rispetto ai baselines MoE.
- Inferenza: Durante l’inferenza, Engram permette il prefetching asincrono delle embeddings, riducendo l’overhead di comunicazione e migliorando l’efficienza.
- Gating Visualization: La visualizzazione del meccanismo di gating di Engram mostra che il modulo identifica e recupera efficacemente pattern linguistici stereotipati, come entità multi-token e frasi formulaiche.

Casi d’uso
#

Private AI Stack: Integrazione in pipeline proprietarie
Client Solutions: Implementazione per progetti clienti

Risorse
#

Link Originali
#

Articolo segnalato e selezionato dal team Human Technology eXcellence elaborato tramite intelligenza artificiale (in questo caso con LLM HTX-EU-Mistral3.1Small) il 2026-01-27 12:30 Fonte originale:

Sintesi #

Casi d’uso #

Risorse #

Link Originali #

Sintesi
#

Casi d’uso
#

Risorse
#

Link Originali
#