
Extropic est en train de construire une plateforme matérielle complète pour exploiter les fluctuations naturelles de la matière en tant que ressource informatique pour l'IA générative. Ce nouveau paradigme informatique étend l'échelle du matériel bien au-delà des contraintes de l'informatique numérique. Il permet de créer des accélérateurs d'IA qui sont plusieurs fois plus rapides et plus économes en énergie que les processeurs numériques (CPU/GPU/TPU/FPGA) et débloque de puissants algorithmes probabilistes d'IA qui ne sont pas réalisables sur des processeurs numériques.
La demande de puissance de calcul à l'ère de l'IA augmente à un rythme exponentiel sans précédent. Heureusement, au cours des dernières décennies, la miniaturisation de la technologie des transistors CMOS selon la loi de Moore a permis d'expliquer une grande partie de cette croissance exponentielle par l'augmentation de l'efficacité des ordinateurs.
Malheureusement, la loi de Moore commence à ralentir. La raison en est ancrée dans la physique fondamentale : les transistors approchent de l'échelle atomique où des effets tels que le bruit thermique commencent à interdire un fonctionnement numérique rigide.
En conséquence, les besoins énergétiques de l'IA moderne commencent à grimper en flèche. Les principaux acteurs proposent des mesures aussi extrêmes que la construction de centres de données alimentés par des réacteurs nucléaires et dédiés à l'entraînement et à l'inférence de grands modèles. La poursuite de cette évolution pendant quelques décennies encore nécessitera des efforts d'ingénierie d'infrastructure d'une ampleur sans précédent et représente une voie ardue pour l'évolution de l'intelligence globale de l'humanité.
D'autre part, la biologie n'est ni rigide ni numérique et abrite des circuits de calculs beaucoup plus efficaces que tout ce que l'humanité a construit à ce jour. Les réseaux de réactions chimiques intercellulaires sont le moteur du calcul dans les systèmes biologiques. Les cellules sont petites et, par conséquent, le nombre de réactifs dans ces réseaux est dénombrable. Par conséquent, les réactions entre les réactifs sont véritablement discrètes et intrinsèquement aléatoires. L'effet relatif de ce caractère aléatoire intrinsèque est inversement proportionnel au nombre de molécules réactives et, de ce fait, les fluctuations tendent à dominer la dynamique de ces systèmes.
À partir de là, il est possible d'affirmer avec certitude qu'il n'y a pas de raison fondamentale pour que les contraintes de la logique numérique limitent l'efficacité des dispositifs informatiques. Le défi technique est clair : comment concevoir dès le départ un système matériel et logiciel d'IA complet qui prospère dans un environnement intrinsèquement bruyant ?
Les modèles basés sur l'énergie (EBM) offrent des indices d'une solution potentielle, car il s'agit d'un concept qui apparaît à la fois dans la physique thermodynamique et dans l'apprentissage automatique probabiliste fondamental. En physique, ils sont connus sous le nom d'états thermiques paramétrés, issus de l'état stable de systèmes dont les paramètres sont réglables. Dans l'apprentissage automatique, ils sont connus sous le nom de familles exponentielles.
Les familles exponentielles sont connues pour être le moyen optimal de paramétrer les distributions de probabilité, car elles nécessitent un minimum de données pour déterminer leurs paramètres de manière unique. Elles sont donc excellentes dans le régime à faible volume de données, qui englobe les scénarios dans lesquels il est nécessaire de modéliser les événements de queue dans les applications critiques, comme le montre la figure 1. Elles y parviennent en remplissant les blancs des données par du bruit ; elles cherchent à maximiser leur entropie tout en correspondant aux statistiques de la distribution cible. Ce processus consistant à imaginer toutes les possibilités qui ne sont pas incluses dans un ensemble de données et à pénaliser énergiquement ces occurrences nécessite l'utilisation d'une grande quantité d'éléments aléatoires, tant au moment de l'apprentissage qu'à celui de l'inférence.
Cette exigence d'échantillonnage a été le principal obstacle à l'utilisation des EBM en production. La raison fondamentale en est que l'échantillonnage à partir de paysages énergétiques génériques est très difficile à réaliser avec du matériel numérique, qui doit dépenser une énergie électrique considérable pour générer et façonner l'entropie nécessaire aux processus de diffusion. Du point de vue du matériel, l'échantillonnage numérique semble tout à fait artificiel : pourquoi consacrer tant d'efforts à la construction d'ordinateurs numériques de qualité de plus en plus complexes, alors que les algorithmes les plus courants et les plus gourmands en ressources informatiques les remplissent de bruit ?
Extropic raccourcit cette inefficacité et libère tout le potentiel de l'IA générative en mettant en œuvre les EBM directement sous la forme de circuits analogiques stochastiques paramétrés. Les accélérateurs Extropic permettront d'améliorer de plusieurs ordres de grandeur les algorithmes basés sur l'échantillonnage de paysages complexes par rapport aux ordinateurs numériques, en termes de temps d'exécution et d'efficacité énergétique.
Le principe de fonctionnement des accélérateurs d'Extropic est analogue au mouvement brownien. Dans le mouvement brownien, des particules macroscopiques et légères en suspension dans un fluide subissent des forces aléatoires dues à de nombreuses collisions avec des molécules microscopiques du liquide. Ces collisions entraînent la diffusion aléatoire des particules autour du récipient. On pourrait imaginer d'ancrer les particules browniennes aux parois de la cuve et les unes aux autres à l'aide de ressorts, comme le montre la figure 2 (a). Dans ce cas, les ressorts résisteront aux forces aléatoires et les particules préféreront résider dans certaines parties de la cuve plutôt que dans d'autres. Si l'on échantillonne de manière répétée les positions des particules, en attendant suffisamment longtemps entre les échantillons (comme illustré à la figure 2 (b)), on constatera qu'elles suivent une distribution de probabilité prévisible à l'état stable. Si nous modifions la rigidité des ressorts, cette distribution changera. Ce simple système mécanique est une source de hasard programmable.
Il existe un lien direct entre cette image mécanique et les circuits analogiques stochastiques paramétrés qui composent les accélérateurs Extropic. Les particules légères représentent les électrons, et les molécules de liquide représentent les atomes du milieu conducteur, qui peuvent transférer de l'énergie aux électrons en cas de collision. Les ressorts représentent les composants du circuit qui confinent le mouvement des électrons, tels que les inducteurs ou les transistors. Des tensions/courants de commande peuvent être appliqués pour régler les valeurs de ces composants, modifiant ainsi la distribution à partir de laquelle le circuit effectue l'échantillonnage.
Bien que tous les circuits soient bruyants, tous ne sont pas utiles en tant qu'accélérateur Extropic. La fabrication d'un dispositif dominé par le bruit mais qui se comporte bien est un défi d'un point de vue technique. Les fluctuations thermiques étant faibles, les dispositifs doivent être physiquement petits et de faible puissance pour être fortement affectés par elles. C'est pourquoi, si l'on voulait fabriquer un accélérateur Extropic à partir de composants macroscopiques (sur un circuit imprimé, par exemple), il faudrait introduire du bruit synthétique. Ce faisant, les gains de temps et d'énergie fondamentaux sont réduits à néant et l'algorithme est finalement exécuté de la même manière que s'il était exécuté numériquement.
Les premiers processeurs d'Extropic sont nanofabriqués à partir d'aluminium et fonctionnent à basse température où ils sont supraconducteurs. La figure 3 montre un premier dispositif qui a testé plusieurs conceptions possibles de neurones supraconducteurs. Certains de ces neurones sont similaires aux qubits de flux supraconducteurs existants. Ces neurones exploitent l'effet Josephson comme source de non-linéarité, qui se produit lorsque deux supraconducteurs sont proches l'un de l'autre. Cette non-linéarité est nécessaire pour que le dispositif puisse accéder à des distributions de probabilité non gaussiennes, qui sont nécessaires pour modéliser les applications du monde réel avec des queues grasses. En outre, les routines numériques d'échantillonnage gaussien sont omniprésentes et hautement optimisées. Par conséquent, si un dispositif analogique doit fournir une accélération considérable par rapport à un processeur traditionnel, la non gaussianité est nécessaire.
Ces neurones constituent les éléments de base qui sont combinés pour former un système supraconducteur plus vaste. Dans un tel système, de nombreux neurones linéaires et non linéaires sont combinés pour créer un circuit qui échantillonne à partir d'une distribution riche et de haute dimension. Les...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.