Mémoire conditionnelle par recherche évolutive : un nouvel axe de parcimonie pour les grands modèles de langage

Author: Xin Cheng; Wangding Zeng; Damai Dai; Qinyu Chen; Bingxuan Wang; Zhenda Xie; Kezhao Huang; Xingkai Yu; Zhewen Hao; Yukun Li; Han Zhang; Huishuai Zhang; Dongyan Zhao; Wenfeng Liang

Résumé
#

QUOI: Engram est un module de mémoire conditionnelle qui modernise les embeddings N-gram classiques pour un lookup O(1), intégré dans les modèles de langage de grande taille (LLMs) pour améliorer l’efficacité de la gestion des connaissances statiques et des dépendances locales.

POURQUOI: Engram résout le problème d’inefficacité des modèles Transformer dans la simulation du rappel des connaissances par le calcul, offrant un nouvel axe de sparsité complémentaire au paradigme de calcul conditionnel (MoE). Cela améliore les performances dans divers domaines, y compris le rappel des connaissances, le raisonnement général, et les tâches de codage et de mathématiques.

QUI: Les principaux acteurs incluent les chercheurs et ingénieurs de DeepSeek-AI et de l’Université de Pékin, qui ont développé Engram, ainsi que la communauté de recherche en IA qui étudie et implémente des modèles de langage avancés.

OÙ: Engram se positionne sur le marché des modèles de langage de grande taille (LLMs), s’intégrant avec des architectures existantes comme Mixture-of-Experts (MoE) pour améliorer l’efficacité et les performances.

QUAND: Engram est une technologie émergente qui gagne en attention pour son potentiel à améliorer les performances des modèles de langage. Sa maturité est en phase de développement, avec des études et des implémentations en cours.

IMPACT COMMERCIAL:

Opportunités: Engram peut être intégré dans la pile existante pour améliorer les performances des modèles de langage, réduisant les coûts de calcul et améliorant l’efficacité du rappel des connaissances.
Risques: La concurrence avec d’autres technologies de mémoire conditionnelle et l’adoption de nouvelles architectures de modèles de langage pourraient représenter une menace.
Intégration: Engram peut être facilement intégré avec les architectures MoE existantes, offrant une amélioration immédiate des performances sans la nécessité de réinitialiser complètement les modèles.

RÉSUMÉ TECHNIQUE:

Technologie de base: Engram utilise des embeddings N-gram modernisés, une compression de tokenizer, un hachage multi-têtes, une gating contextualisée, et une intégration multi-branches. Le modèle est implémenté en Python et utilise des frameworks de deep learning comme PyTorch.
Scalabilité et limites architecturales: Engram peut être mis à l’échelle jusqu’à des milliards de paramètres, avec une taille de modèle de 175B paramètres. Son efficacité est démontrée dans des scénarios de pré-entraînement à grande échelle et d’inférence.
Différenciateurs techniques clés: Engram offre un lookup O(1) pour les motifs statiques, réduit la profondeur de calcul nécessaire pour le rappel des connaissances, et libère la capacité d’attention pour le contexte global. Son efficacité infrastructurelle permet le préchargement asynchrone des embeddings, réduisant la surcharge de communication.

Détails techniques:

Pipeline d’Engram: La pipeline d’Engram comprend deux phases principales: retrieval et fusion. Dans la phase de retrieval, les contextes locaux sont mappés à des entrées de mémoire statiques via un hachage déterministe. Dans la phase de fusion, les embeddings récupérés sont modulés dynamiquement par l’état caché actuel et affinés par une légère convolution.
Exemples d’application:
- Rappel des connaissances: Engram améliore le rappel des connaissances dans des benchmarks comme MMLU, CMMLU, et MMLU-Pro.
- Raisonnement général: Montre des gains significatifs dans des benchmarks de raisonnement général comme BBH, ARC-Challenge, et DROP.
- Codage et mathématiques: Améliore les performances dans des benchmarks de codage et de mathématiques comme HumanEval, MATH, et GSMK.
- Contexte long: Améliore les capacités de rappel et de raisonnement dans des contextes longs, comme démontré dans des benchmarks comme LongPPL et RULER.
Exemples d’utilisation:
- Pré-entraînement: Engram a été utilisé dans des modèles de pré-entraînement à grande échelle, comme Engram-B et Engram-B, qui ont démontré des améliorations significatives par rapport aux baselines MoE.
- Inférence: Pendant l’inférence, Engram permet le préchargement asynchrone des embeddings, réduisant la surcharge de communication et améliorant l’efficacité.
- Visualisation de gating: La visualisation du mécanisme de gating d’Engram montre que le module identifie et récupère efficacement des motifs linguistiques stéréotypés, comme des entités multi-token et des phrases formulaïques.

Cas d’utilisation
#

Private AI Stack: Intégration dans des pipelines propriétaires
Solutions client: Implémentation pour des projets clients

Ressources
#

Liens originaux
#

Article signalé et sélectionné par l’équipe Human Technology eXcellence élaboré via intelligence artificielle (dans ce cas avec LLM HTX-EU-Mistral3.1Small) le 2026-01-27 12:30 Source originale:

Articoli Interessanti - Cet article fait partie d'une série.

Partie : GitHub - moltbot/moltbot : Votre propre assistant IA personnel. N'importe quel OS. N'importe quelle plateforme. À la manière du homard. 🦞

Partie : GitHub - aiming-lab/SimpleMem : SimpleMem : Mémoire à long terme efficace pour les agents LLM

Partie : GitHub - mikekelly/claude-sneakpeek : Obtenez une version parallèle du code Claude qui débloque des fonctionnalités activées par des drapeaux comme le mode essaim.

Partie : Bienvenue - Documentation Poke

Partie : Cet article

Partie : NVIDIA PersonaPlex : IA conversationnelle naturelle avec n'importe quel rôle et voix - NVIDIA ADLR

Partie : GitHub - different-ai/openwork : Une alternative open-source à Claude Cowork, alimentée par OpenCode

Partie : GitHub - google/langextract : Une bibliothèque Python pour extraire des informations structurées à partir de texte non structuré en utilisant des modèles de langage avec précision.

Partie : GitHub - memodb-io/Acontext : Plateforme de données pour l'ingénierie de contexte. Plateforme de données de contexte qui stocke, observe et apprend. Rejoignez-nous.

Partie : GitHub - rberg27/doom-coding : Un guide pour utiliser votre smartphone afin de coder n'importe où et à tout moment.

Partie : GitHub - bolt-foundry/gambit : Cadre d'agent pour construire, exécuter et vérifier des flux de travail LLM