Google introduit l'architecture Titans et le framework MIRAS, qui permettent aux modèles d'IA de travailler beaucoup plus rapidement et de gérer des contextes massifs en mettant à jour leur mémoire centrale

Le 9 décembre 2025 à 08:59, par Alex

80PARTAGES

Dans deux nouveaux articles, Titans et MIRAS, Google présente une architecture et un schéma théorique qui combinent la vitesse des RNN avec la précision des transformateurs. Titans est l'architecture spécifique (l'outil) et MIRAS est le framework théorique (le plan) pour généraliser ces approches. En employant des réseaux neuronaux profonds comme modules de mémoire qui apprennent à mémoriser au fur et à mesure que les données arrivent, ces approches surmontent les limites des états récurrents de taille fixe. En outre, MIRAS fournit une puissante unification théorique, révélant le lien entre l'optimisation en ligne, la mémoire associative et la conception architecturale.

Google est une multinationale américaine spécialisée dans les technologies de l'information, la publicité en ligne, la technologie des moteurs de recherche, le courrier électronique, l'informatique en nuage, les logiciels, l'informatique quantique, le commerce électronique, l'électronique grand public et l'intelligence artificielle (IA). Google est le plus grand fournisseur de moteurs de recherche, d'applications de cartographie et de navigation, de services de messagerie, de suites bureautiques, de plateformes vidéo en ligne, de stockage de photos et de nuages, de systèmes d'exploitation mobiles, de navigateurs web, de framework d'apprentissage automatique et d'assistants virtuels d'IA au monde, en termes de parts de marché.

L'intelligence artificielle (IA) est la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. Les objectifs traditionnels de la recherche en IA comprennent l'apprentissage, le raisonnement, la représentation des connaissances, la planification, le traitement du langage naturel, la perception et le soutien à la robotique. Certaines entreprises, comme OpenAI, Google DeepMind et Meta, visent à créer une intelligence générale artificielle (AGI), c'est-à-dire une IA capable d'accomplir pratiquement n'importe quelle tâche cognitive au moins aussi bien qu'un être humain.

L'architecture Transformer a révolutionné la modélisation des séquences grâce à l'introduction de l'attention, un mécanisme par lequel les modèles reviennent sur des entrées antérieures pour hiérarchiser les données d'entrée pertinentes. Cependant, le coût de calcul augmente considérablement avec la longueur de la séquence, ce qui limite la capacité à adapter les modèles basés sur Transformer à des contextes extrêmement longs, tels que ceux requis pour la compréhension d'un document complet ou l'analyse génomique.

La communauté des chercheurs a exploré diverses approches pour trouver des solutions, telles que les réseaux neuronaux récurrents linéaires efficaces (RNN) et les modèles d'espace d'état (SSM) comme Mamba-2. Ces modèles offrent une mise à l'échelle rapide et linéaire en comprimant le contexte dans une taille fixe. Cependant, cette compression de taille fixe ne peut pas capturer de manière adéquate la richesse des informations contenues dans les très longues séquences.

Dans deux nouveaux articles, Titans et MIRAS, Google présente une architecture et un schéma théorique qui combinent la vitesse des RNN avec la précision des transformateurs. Titans est l'architecture spécifique (l'outil) et MIRAS est le framework théorique (le plan) pour généraliser ces approches. Ensemble, ils font progresser le concept de mémorisation en temps réel, c'est-à-dire la capacité d'un modèle d'intelligence artificielle à conserver sa mémoire à long terme en incorporant des mesures « surprises » plus puissantes (c'est-à-dire des éléments d'information inattendus) pendant que le modèle est en cours d'exécution et sans réentraînement hors ligne spécifique.

Le framework MIRAS, tel que démontré par Titans, introduit un changement significatif vers l'adaptation en temps réel. Au lieu de comprimer les informations dans un état statique, cette architecture apprend activement et met à jour ses propres paramètres au fur et à mesure que les données affluent. Ce mécanisme crucial permet au modèle d'incorporer instantanément de nouveaux détails spécifiques dans ses connaissances de base.

Titans : Apprendre un nouveau contexte à la volée

Un système d'apprentissage efficace nécessite des modules de mémoire distincts mais interconnectés, reflétant la séparation de la mémoire à court terme et de la mémoire à long terme du cerveau humain.

Alors que les mécanismes d'attention excellent pour la mémoire précise à court terme, Titans introduit un nouveau module de mémoire neuronale à long terme qui, contrairement à la mémoire vectorielle ou matricielle de taille fixe des RNN traditionnels, agit comme un réseau neuronal profond (plus précisément, un perceptron multicouche). Ce module de mémoire offre un pouvoir d'expression nettement plus élevé, permettant au modèle de résumer de grandes quantités d'informations sans perdre le contexte important. Le modèle ne se contente pas de prendre des notes, il comprend et synthétise l'ensemble de l'histoire.

Surtout, Titans ne se contente pas de stocker passivement des données. Il apprend activement à reconnaître et à conserver les relations importantes et les thèmes conceptuels qui relient les jetons dans l'ensemble de l'entrée. Un aspect clé de cette capacité est la « métrique de la surprise ». En psychologie humaine, nous savons que nous oublions rapidement et facilement les événements routiniers et attendus, mais que nous nous souvenons des choses qui brisent le modèle - les événements inattendus, surprenants ou hautement émotionnels.

Dans le contexte Titans, la "métrique de la surprise" est la détection par le modèle d'une grande différence entre ce dont il se souvient actuellement et ce que les nouvelles données lui indiquent.

- Faible surprise : si le nouveau mot est "chat" et que l'état de la mémoire du modèle s'attend déjà à un mot animal, le gradient (surprise) est faible. Il peut sans risque ne pas mémoriser le mot "chat" dans son état permanent à long terme.

- Surprise élevée : si l'état de la mémoire du modèle résume un rapport financier sérieux et que la nouvelle entrée est une image de peau de banane (l'événement inattendu), le gradient (surprise) sera très élevé. Ce signal indique que la nouvelle entrée est importante ou anormale et qu'elle doit être traitée en priorité pour être stockée de manière permanente dans le module de mémoire à long terme.

Le modèle utilise ce signal d'erreur interne (le gradient) comme un équivalent mathématique de la phrase : "C'est inattendu et important !". Cela permet à l'architecture Titans de mettre à jour sa mémoire à long terme de manière sélective, uniquement avec les informations les plus nouvelles et les plus dérangeantes pour le contexte, ce qui permet de maintenir le processus global rapide et efficace.

Titans affine ce mécanisme en incorporant deux éléments essentiels :

- L'élan : Le modèle tient compte à la fois de la "surprise momentanée" (l'entrée actuelle) et de la "surprise passée" (le flux de contexte récent). Cela permet de s'assurer que les informations ultérieures pertinentes sont également prises en compte, même si ces éléments ne sont pas individuellement surprenants.

- Oubli (décroissance du poids) : Pour gérer la capacité limitée de la mémoire lorsqu'il s'agit de séquences extrêmement longues, les Titans utilisent un mécanisme adaptatif de décroissance du poids. Ce mécanisme agit comme une porte d'oubli, permettant au modèle de se débarrasser des informations qui ne sont plus nécessaires.

MIRAS : Une vue unifiée de la modélisation des séquences

Chaque avancée majeure dans la modélisation des séquences - des transformateurs modernes aux nouveaux RNN linéaires rapides comme l'éclair - est essentiellement la même chose sous le capot : un module de mémoire associative hautement complexe.

Par conséquent, ce qui rend MIRAS à la fois unique et pratique, c'est la façon dont il envisage la modélisation de l'IA. Au lieu de voir diverses architectures, il voit différentes méthodes pour résoudre le même problème : combiner efficacement de nouvelles informations avec d'anciennes mémoires sans oublier les concepts essentiels.

MIRAS définit un modèle de séquence à travers quatre choix de conception clés :

- Architecture de la mémoire : La structure qui stocke l'information (par exemple, un vecteur, une matrice ou un perceptron multicouche profond, comme dans Titans).

- Biais attentionnel : L'objectif d'apprentissage interne que le modèle optimise et qui détermine ce à quoi il donne la priorité.

- Porte de rétention : Le régularisateur de mémoire. MIRAS réinterprète les "mécanismes d'oubli" comme des formes spécifiques de régularisation qui équilibrent les nouveaux apprentissages et la conservation des connaissances antérieures.

- Algorithme de mémoire : L'algorithme d'optimisation utilisé pour mettre à jour la mémoire.

Transcender le paradigme de l'erreur quadratique moyenne

Pratiquement tous les modèles de séquences existants qui ont fait leurs preuves s'appuient sur l'erreur quadratique moyenne (EQM) ou sur la similarité du produit point pour leur biais et leur rétention. Cette dépendance peut rendre les modèles sensibles aux valeurs aberrantes et limiter leur pouvoir d'expression.

MIRAS transcende cette limitation en fournissant un framework génératif pour explorer un espace de conception plus riche informé par la littérature en optimisation et en statistiques. Cela permet de créer de nouvelles architectures avec des objectifs non euclidiens et une régularisation.

En utilisant MIRAS, Google a créé trois modèles spécifiques sans attention :

- YAAD : Google a conçu cette variante de MIRAS pour qu'elle soit moins sensible aux erreurs majeures ou "aberrantes" (comme une seule faute de frappe dans un document volumineux). Elle utilise une pénalité mathématique plus douce (perte de Huber) pour les erreurs, de sorte qu'elle ne réagit pas de manière excessive aux problèmes ponctuels. Le modèle est ainsi plus robuste lorsque les données d'entrée sont désordonnées ou incohérentes.

- MONETA : ce modèle explore l'utilisation de pénalités mathématiques plus complexes et plus strictes (appelées normes généralisées). Il cherche à déterminer si l'utilisation de ces règles plus disciplinées pour ce à quoi le modèle s'intéresse et ce qu'il oublie peut conduire à un système de mémoire à long terme plus puissant et plus stable dans l'ensemble.

- MEMORA : ce modèle s'efforce d'obtenir la meilleure stabilité possible de la mémoire en forçant sa mémoire à agir comme une carte de probabilité stricte. Cette contrainte permet de s'assurer qu'à chaque fois que l'état de la mémoire est mis à jour, les changements sont contrôlés et équilibrés. Pratiquement tous les modèles de séquence existants qui ont fait leurs preuves s'appuient sur l'erreur quadratique moyenne (EQM) ou sur la similarité du produit point pour leur biais et leur rétention. Cette dépendance peut rendre les modèles sensibles aux valeurs aberrantes et limiter leur pouvoir d'expression.

Expériences et résultats

Google a comparé Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) aux principales architectures, notamment Transformer++, Mamba-2 et Gated DeltaNet. Ils ont...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Google introduit l'architecture Titans et le framework MIRAS, qui permettent aux modèles d'IA de travailler beaucoup plus rapidement et de gérer des contextes massifs en mettant à jour leur mémoire centrale

Identifiant
Mot de passe

Mot de passe oublié ?