Taichi : un circuit intégré photonique rapide et hautement économe en énergie
Dans un article publié jeudi dans la revue Science, l'équipe de scientifiques de l'université chinois Tsinghua, dirigée par les professeurs Dai Qionghai et Fang Lu, a démontré comment son circuit intégré photonique (photonic integrated circuit - PIC) Taichi surpasse les puces électroniques traditionnelles dans des tâches comme la formation à la reconnaissance d'images et la génération de contenu. L'article indique que Taichi peut exécuter des tâches d'IA aussi bien que ses homologues électroniques avec un millième de l'énergie consommée. Ce développement pourrait permettre d'améliorer l'efficacité énergétique de l'IA.
Taichi peut transformer des images en œuvres d'art avec le style de divers artistes
Les chercheurs ont déclaré dans leur article : « Taichi ouvre la voie à l'informatique photonique à grande échelle et aux tâches avancées, en exploitant davantage la flexibilité et le potentiel de la photonique pour l'intelligence artificielle générale (AGI) moderne ». Les PIC utilisent la lumière au lieu de signaux électriques pour traiter les données, ce qui permet de transmettre des données à des vitesses et des largeurs de bande extrêmement élevées, tout en consommant beaucoup moins d'énergie que les dispositifs électroniques. Ils sont considérés comme incontournables pour répondre au nombre croissant de données échangées.
Pour rappel, à mesure que les réseaux neuronaux gagnent en taille et en puissance, ils deviennent de plus en plus gourmands en énergie lorsqu'ils sont exécutés sur des appareils électroniques conventionnels. Par exemple, une étude de nature suggère que pour entraîner son grand modèle d'IA GPT-3, OpenAI a dépensé 4,6 millions de dollars pour faire fonctionner 9 200 GPU pendant deux semaines, avec une consommation énergétique très importante. Les inconvénients de l'informatique électronique poussent les scientifiques à considérer l'informatique optique comme une base prometteuse pour l'IA de la prochaine génération.
Contrairement aux approches traditionnelles des puces qui empilent les PIC, l'équipe de Taichi a opté pour une architecture innovante. Elle a organisé les puces en grappes indépendantes, créant ainsi une architecture peu profonde, mais large. Cette répartition des ressources permet à Taichi d'atteindre des performances impressionnantes. Les performances comprennent la classification sur puce de plus de 1 000 catégories avec une précision de 91,89 % sur l'ensemble de données Omniglot. Les chercheurs affirment que Taichi constitue un grand pas en avant vers l'application des réseaux de neurones optiques à des tâches réelles.
« Les réseaux neuronaux optiques ne sont plus des modèles de jouets. Ils peuvent désormais être appliqués à des tâches réelles », affirme Lu Fang, professeur associé d'ingénierie électronique à l'université Tsinghua. Selon les chercheurs, Taichi pourrait faire de l'AGI une réalité. (L'AGI est une forme d'IA dotée de capacités cognitives de niveau humain qui pourrait être appliquée à un large éventail de disciplines. En comparaison, malgré leurs capacités, les systèmes d'IA actuels restent limités dans leur champ d'application.) L'efficacité énergétique de Taichi devrait permettre de traiter de gros volumes de données à moindre coût.
Taichi laisse entrevoir un avenir où l'IA sera propulsée par l'informatique photonique. Les puces électroniques traditionnelles approchent de leurs limites en matière de vitesse et d'efficacité et il est nécessaire de trouver des alternatives viables. « Le présent travail constitue une étape prometteuse vers l'informatique photonique dans le monde réel, à l'appui de diverses applications dans le domaine de l'IA », a déclaré Yury Suleymanov, rédacteur en chef adjoint de la revue Science.
Réseau neuronal optique : fonctionnement et choix de l'architecture de Taichi
Selon les experts, il existe deux façons pour développer des réseaux neuronaux optiques : soit diffuser la lumière selon des schémas spécifiques à l'intérieur des micropuces, soit faire interférer les ondes lumineuses les unes avec les autres de manière précise à l'intérieur des dispositifs. Lorsque la lumière entre dans ces réseaux neuronaux optiques, la lumière qui en sort encode les données des opérations complexes effectuées dans ces dispositifs. Selon le professeur Fang de l'université Tsinghua, les deux approches de l'informatique photonique présentent chacune plusieurs avantages et des inconvénients significatifs.
À titre d'exemple, les réseaux neuronaux optiques qui reposent sur le principe de la diffusion, ou diffraction, peuvent regrouper de nombreux neurones à proximité les uns des autres et ne consomment pratiquement pas d'énergie. Les réseaux neuronaux basés sur la diffraction s'appuient sur la diffusion des faisceaux lumineux lorsqu'ils traversent les couches optiques qui représentent les opérations du réseau. Cependant, l'un des inconvénients des réseaux neuronaux basés sur la diffraction est qu'ils ne peuvent pas être reconfigurés. Chaque chaîne d'opérations ne peut être utilisée que pour une tâche spécifique.
Par contre, les réseaux neuronaux optiques qui dépendent des interférences peuvent être facilement reconfigurés. Les réseaux neuronaux basés sur les interférences envoient un grand nombre de faisceaux à travers un maillage de canaux, et la manière dont ils interfèrent à l'intersection de ces canaux permet d'effectuer les opérations de l'appareil. L'inconvénient des interféromètres est qu'ils sont également encombrants, ce qui limite la capacité d'extension de ces réseaux neuronaux. Ils consomment également beaucoup d'énergie. Dans le même temps, les puces photoniques actuelles présentent des erreurs inévitables.
Les tentatives d'extension des réseaux neuronaux optiques en augmentant le nombre de couches de neurones dans ces dispositifs ne font généralement qu'accroître de manière exponentielle ce bruit inévitable. Cela signifie que, jusqu'à présent, les réseaux neuronaux optiques étaient limités à des tâches d'IA de base comme la simple reconnaissance de formes. « En d'autres termes, les réseaux neuronaux optiques n'étaient généralement pas adaptés aux applications avancées du monde réel », explique Fang. L'équipe affirme que Taichi est une conception hybride qui combine les approches de diffraction et d'interférence.
Il contient des grappes d'unités de diffraction qui peuvent compresser les données pour une entrée et une sortie à grande échelle dans un espace compact. Mais leur puce contient également des réseaux d'interféromètres pour des calculs reconfigurables. Le protocole d'encodage développé pour Taichi divise les tâches difficiles et les grands modèles de réseau en sous-problèmes et sous-modèles qui peuvent être répartis entre différents modules.
Comment Taichi combine-t-il les deux types de réseaux neuronaux optiques ?
Les recherches antérieures visaient généralement à accroître la capacité des réseaux neuronaux optiques en imitant ce qui est souvent fait avec leurs homologues électroniques, c'est-à-dire en augmentant le nombre de couches de neurones. Au lieu de cela, l'architecture de Taichi s'étend en répartissant le calcul sur plusieurs chiplets qui fonctionnent en parallèle. Cela signifie que Taichi peut éviter le problème de l'accumulation exponentielle d'erreurs qui se produit lorsque les réseaux neuronaux optiques empilent de nombreuses couches de neurones. « Cette architecture peu profonde, mais large garantit l'échelle du réseau », affirme Fang.
Par exemple, les réseaux neuronaux optiques précédents ne possédaient généralement que des milliers de paramètres - les connexions entre les neurones qui imitent les synapses reliant les neurones biologiques dans le cerveau humain. En revanche, Taichi possède 13,96 millions de paramètres. Les réseaux neuronaux optiques précédents étaient souvent limités à la classification de données selon une douzaine de catégories seulement, par exemple pour déterminer si les images représentaient l'un des dix chiffres. Les chercheurs affirment que Taichi repousse ces limites et affiche de bonnes performances lors de différents tests.
Selon les chercheurs, lors de tests effectués avec la base de données Omniglot, qui contient 1 623 caractères manuscrits différents issus de 50 alphabets différents, Taichi a affiché une précision de 91,89 %, comparable à celle de ses homologues électroniques. En outre, les chercheurs ont testé Taichi sur une tâche d'IA avancée, la génération de contenu. Ils ont constaté qu'elle pouvait produire des clips musicaux dans le style de Jean-Sébastien Bach et générer des images de chiffres et de paysages dans le style de Vincent Van Gogh et d'Edvard Munch (comme le montre l'image ci-dessus).
Dans l'ensemble, Taichi présente une efficacité énergétique allant jusqu'à environ 160 milliards d'opérations par seconde et par watt et une efficacité surfacique de près de 880 milliards d'opérations de multiplication-accumulation (l'opération la plus élémentaire des réseaux neuronaux) par millimètre carré. Il est donc plus de 1 000 fois plus économe en énergie que l'un des derniers GPU, le Nvidia H100, et environ 100 fois plus économe en énergie et 10 fois plus économe en surface que d'autres réseaux neuronaux optiques antérieurs. L'exportation des GPU Nvidia H100 vers la Chine est soumise à des restrictions.
Bien que Taichi soit compacte et économe en énergie, Fang souligne qu'elle repose sur de nombreux autres systèmes, comme une source laser et un couplage de données à grande vitesse. Selon elle, ces autres systèmes sont beaucoup plus encombrants qu'une simple puce, occupant presque une table entière. À l'avenir, le professeur et ses collègues souhaitent ajouter d'autres modules aux puces afin de rendre l'ensemble du système encore plus compact et économe en énergie.
Source : rapport de l'étude
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des performances de la puce photonique Taichi des chercheurs chinois ?
Pensez-vous que l'informatique photonique est l'avenir de l'IA et de l'informatique en général ?
Voir aussi
Intel dévoile les détails de sa nouvelle puce d'IA : l'accélérateur d'IA Intel Gaudi 3 pour lutter contre la domination de Nvidia
De nouvelles avancées promettent une informatique quantique sécurisée à domicile, l'informatique quantique aveugle permet d'accéder à des ordinateurs quantiques distants
L'ordinateur sans transistor de Microsoft, basé sur la lumière, résoudrait des problèmes d'optimisation complexes à la vitesse de la lumière et pourrait permettre de contourner la loi de Moore