Aller au contenu
  1. Blog/

Mémoire conditionnelle par recherche évolutive : un nouvel axe de parcimonie pour les grands modèles de langage

·918 mots·5 mins
Research Foundation Model LLM
Articoli Interessanti - Cet article fait partie d'une série.
Partie : Cet article
Default featured image
#### Source

Type: PDF Document
Original Link:
Publication Date: 2026-01-27

Author: Xin Cheng; Wangding Zeng; Damai Dai; Qinyu Chen; Bingxuan Wang; Zhenda Xie; Kezhao Huang; Xingkai Yu; Zhewen Hao; Yukun Li; Han Zhang; Huishuai Zhang; Dongyan Zhao; Wenfeng Liang


Résumé
#

QUOI: Engram est un module de mémoire conditionnelle qui modernise les embeddings N-gram classiques pour un lookup O(1), intégré dans les modèles de langage de grande taille (LLMs) pour améliorer l’efficacité de la gestion des connaissances statiques et des dépendances locales.

POURQUOI: Engram résout le problème d’inefficacité des modèles Transformer dans la simulation du rappel des connaissances par le calcul, offrant un nouvel axe de sparsité complémentaire au paradigme de calcul conditionnel (MoE). Cela améliore les performances dans divers domaines, y compris le rappel des connaissances, le raisonnement général, et les tâches de codage et de mathématiques.

QUI: Les principaux acteurs incluent les chercheurs et ingénieurs de DeepSeek-AI et de l’Université de Pékin, qui ont développé Engram, ainsi que la communauté de recherche en IA qui étudie et implémente des modèles de langage avancés.

: Engram se positionne sur le marché des modèles de langage de grande taille (LLMs), s’intégrant avec des architectures existantes comme Mixture-of-Experts (MoE) pour améliorer l’efficacité et les performances.

QUAND: Engram est une technologie émergente qui gagne en attention pour son potentiel à améliorer les performances des modèles de langage. Sa maturité est en phase de développement, avec des études et des implémentations en cours.

IMPACT COMMERCIAL:

  • Opportunités: Engram peut être intégré dans la pile existante pour améliorer les performances des modèles de langage, réduisant les coûts de calcul et améliorant l’efficacité du rappel des connaissances.
  • Risques: La concurrence avec d’autres technologies de mémoire conditionnelle et l’adoption de nouvelles architectures de modèles de langage pourraient représenter une menace.
  • Intégration: Engram peut être facilement intégré avec les architectures MoE existantes, offrant une amélioration immédiate des performances sans la nécessité de réinitialiser complètement les modèles.

RÉSUMÉ TECHNIQUE:

  • Technologie de base: Engram utilise des embeddings N-gram modernisés, une compression de tokenizer, un hachage multi-têtes, une gating contextualisée, et une intégration multi-branches. Le modèle est implémenté en Python et utilise des frameworks de deep learning comme PyTorch.
  • Scalabilité et limites architecturales: Engram peut être mis à l’échelle jusqu’à des milliards de paramètres, avec une taille de modèle de 175B paramètres. Son efficacité est démontrée dans des scénarios de pré-entraînement à grande échelle et d’inférence.
  • Différenciateurs techniques clés: Engram offre un lookup O(1) pour les motifs statiques, réduit la profondeur de calcul nécessaire pour le rappel des connaissances, et libère la capacité d’attention pour le contexte global. Son efficacité infrastructurelle permet le préchargement asynchrone des embeddings, réduisant la surcharge de communication.

Détails techniques:

  • Pipeline d’Engram: La pipeline d’Engram comprend deux phases principales: retrieval et fusion. Dans la phase de retrieval, les contextes locaux sont mappés à des entrées de mémoire statiques via un hachage déterministe. Dans la phase de fusion, les embeddings récupérés sont modulés dynamiquement par l’état caché actuel et affinés par une légère convolution.
  • Exemples d’application:
    • Rappel des connaissances: Engram améliore le rappel des connaissances dans des benchmarks comme MMLU, CMMLU, et MMLU-Pro.
    • Raisonnement général: Montre des gains significatifs dans des benchmarks de raisonnement général comme BBH, ARC-Challenge, et DROP.
    • Codage et mathématiques: Améliore les performances dans des benchmarks de codage et de mathématiques comme HumanEval, MATH, et GSMK.
    • Contexte long: Améliore les capacités de rappel et de raisonnement dans des contextes longs, comme démontré dans des benchmarks comme LongPPL et RULER.
  • Exemples d’utilisation:
    • Pré-entraînement: Engram a été utilisé dans des modèles de pré-entraînement à grande échelle, comme Engram-B et Engram-B, qui ont démontré des améliorations significatives par rapport aux baselines MoE.
    • Inférence: Pendant l’inférence, Engram permet le préchargement asynchrone des embeddings, réduisant la surcharge de communication et améliorant l’efficacité.
    • Visualisation de gating: La visualisation du mécanisme de gating d’Engram montre que le module identifie et récupère efficacement des motifs linguistiques stéréotypés, comme des entités multi-token et des phrases formulaïques.

Cas d’utilisation
#

  • Private AI Stack: Intégration dans des pipelines propriétaires
  • Solutions client: Implémentation pour des projets clients

Ressources
#

Liens originaux
#


Article signalé et sélectionné par l’équipe Human Technology eXcellence élaboré via intelligence artificielle (dans ce cas avec LLM HTX-EU-Mistral3.1Small) le 2026-01-27 12:30 Source originale:

Articles Connexes
#


Le Point de Vue HTX
#

Ce sujet est au cœur de ce que nous construisons chez HTX. La technologie présentée ici — qu’il s’agisse d’agents IA, de modèles de langage ou de traitement de documents — représente exactement le type de capacités dont les entreprises européennes ont besoin, mais déployées selon leurs propres conditions.

Le défi n’est pas de savoir si cette technologie fonctionne. Elle fonctionne. Le défi est de la déployer sans envoyer les données de votre entreprise vers des serveurs américains, sans violer le RGPD et sans créer des dépendances fournisseur dont vous ne pouvez pas sortir.

C’est pourquoi nous avons créé ORCA — un chatbot d’entreprise privé qui apporte ces capacités à votre infrastructure. Même puissance que ChatGPT, mais vos données ne quittent jamais votre périmètre.

Vous voulez savoir si votre entreprise est prête pour l’IA ? Faites notre évaluation gratuite — 5 minutes, rapport personnalisé, feuille de route actionnable.

Découvrez ORCA par HTX
Votre entreprise est-elle prête pour l'IA ?
Faites l'évaluation gratuite →

FAQ

Les grands modèles de langage peuvent-ils fonctionner sur une infrastructure privée ?

Oui. Les modèles open source comme LLaMA, Mistral, DeepSeek et Qwen peuvent fonctionner on-premise ou sur un cloud européen. Ces modèles atteignent des performances comparables à GPT-4 pour la plupart des tâches métier, avec l'avantage d'une souveraineté complète sur les données.

Quel LLM est le meilleur pour un usage professionnel ?

Le meilleur modèle dépend de votre cas d'usage. Pour l'analyse de documents et le chat, Mistral et LLaMA excellent. Pour l'analyse de données, DeepSeek offre un raisonnement solide. L'approche de HTX est agnostique : ORCA supporte plusieurs modèles.

Articoli Interessanti - Cet article fait partie d'une série.
Partie : Cet article