Des chercheurs créent une IA qui crée de l'IA, en présence d'un nouveau réseau neuronal profond non entraîné,

Ce qui soulève de nouveau la question de la réelle définition de l'IA

Le 26 janvier 2022 à 12:41, par Bruno

88PARTAGES

Des chercheurs créent une IA qui crée de l'IA, en présence d'un nouveau réseau neuronal profond non entraîné,
ce qui soulève de nouveau la question de la réelle définition de l’IA

Le chercheur Boris Knyazev, de l'Université de Guelph, en Ontario, et ses collègues auraient créé une Intelligence artificielle (IA), qui crée de l'IA. Ils ont conçu et formé un « hyper-réseau », une sorte de superordre d'autres réseaux neuronaux qui pourrait accélérer le processus de formation. À partir d'un nouveau réseau neuronal profond non formé, conçu pour une tâche donnée. L'hyper-réseau prédit les paramètres du nouveau réseau en quelques fractions de seconde, ce qui, en théorie, pourrait rendre la formation inutile. Étant donné que l'hyper-réseau apprend les modèles extrêmement complexes des réseaux neuronaux profonds, ces travaux pourraient également avoir des implications théoriques plus approfondies. Cependant, au regard des détails fournis, peut-on vraiment parler de création d’IA à partir d’une autre IA ? Cela la soulève-telle pas la nécessité de s’accorder sur la définition et le fonctionnement même d’une IA ?

L’IA pourrait se définit comme la capacité d'un ordinateur numérique ou d'un robot contrôlé par ordinateur à effectuer des tâches généralement associées à des êtres intelligents. Le terme est fréquemment appliqué au projet de développement de systèmes dotés des processus intellectuels caractéristiques des humains, tels que la capacité de raisonner, de découvrir un sens, de généraliser ou d'apprendre à partir d'expériences passées. Depuis le développement de l'ordinateur numérique dans les années 1940, il a été démontré que les ordinateurs peuvent être programmés pour effectuer des tâches très complexes - comme, par exemple, découvrir les preuves de théorèmes mathématiques ou jouer aux échecs - avec une grande compétence.

Pourtant, malgré les progrès constants de la vitesse de traitement et de la capacité de mémoire des ordinateurs, il n'existe pas encore de programmes capables d'égaler la flexibilité humaine dans des domaines plus vastes ou dans des tâches exigeant de grandes connaissances quotidiennes. D'autre part, certains programmes ont atteint les niveaux de performance des experts et des professionnels humains dans l'exécution de certaines tâches spécifiques, de sorte que l'intelligence artificielle dans ce sens limité se retrouve dans des applications aussi diverses que le diagnostic médical, les moteurs de recherche et la reconnaissance de la voix ou de l'écriture.

Selon la célèbre Encyclopédie Britannica, la recherche en IA suit deux méthodes distinctes, et dans une certaine mesure concurrente, l'approche symbolique (ou « descendante » ) et l'approche connexionniste (ou « ascendante » ). L'approche descendante cherche à reproduire l'intelligence en analysant la cognition indépendamment de la structure biologique du cerveau, en termes de traitement des symboles, d'où l'étiquette symbolique. L'approche ascendante, quant à elle, consiste à créer des réseaux neuronaux artificiels en imitant la structure du cerveau, d'où le terme connexionniste.

Dans The Fundamentals of Learning (1932), Edward Thorndike, psychologue à l'université Columbia de New York, a été le premier à suggérer que l'apprentissage humain consistait en une propriété inconnue des connexions entre les neurones du cerveau. Dans The Organization of Behavior (1949), Donald Hebb, psychologue à l'université McGill de Montréal (Canada), a suggéré que l'apprentissage consiste spécifiquement à renforcer certains schémas d'activité neuronale en augmentant la probabilité (poids) de l'allumage des neurones induits entre les connexions associées. La notion de connexions pondérées est décrite dans une section ultérieure, le connexionnisme.

Historiquement, le premier programme d'IA réussi a été écrit en 1951 par Christopher Strachey, qui deviendra plus tard directeur du Programming Research Group de l'université d'Oxford. Le programme de dames de Strachey fonctionnait sur l'ordinateur Ferranti Mark I de l'université de Manchester, en Angleterre. À l'été 1952, ce programme pouvait jouer une partie complète de dames à une vitesse raisonnable.

Le premier programme d'IA à fonctionner aux États-Unis était également un programme de dames, écrit en 1952 par Arthur Samuel pour le prototype de l'IBM 701. Samuel a repris l'essentiel du programme de dames de Strachey et l'a considérablement étendu pendant plusieurs années. En 1955, il a ajouté des fonctions permettant au programme d'apprendre par l'expérience. Samuel a inclus des mécanismes d'apprentissage par cœur et de généralisation, améliorations qui ont finalement permis à son programme de gagner une partie contre un ancien champion de dames du Connecticut en 1962.

« Actuellement, les meilleures méthodes de formation et d'optimisation des réseaux neuronaux profonds sont des variantes d'une technique appelée descente de gradient stochastique (SGD). La formation consiste à minimiser les erreurs commises par le réseau dans une tâche donnée, telle que la reconnaissance d'images », indique Anil Ananthaswamy, contributeur.

« Un algorithme de descente de gradient stochastique passe en revue de nombreuses données étiquetées pour ajuster les paramètres du réseau et réduire les erreurs, ou pertes. La SGD est un processus itératif qui consiste à descendre des valeurs élevées de la fonction de perte vers une certaine valeur minimale, qui représente des valeurs de paramètres suffisamment bonnes (ou parfois même les meilleures possibles) », explique-t-il.

Cependant, certains analystes estiment que, cette technique ne fonctionne qu'une fois que l'on dispose d'un réseau à optimiser. Pour construire le réseau neuronal initial, généralement constitué de plusieurs couches de neurones artificiels qui mènent d'une entrée à une sortie, les ingénieurs devraient s'appuyer sur des intuitions et des règles empiriques. Ces architectures peuvent varier en termes de nombre de couches de neurones, de nombre de neurones par couche, etc.

On peut, en théorie, commencer avec de nombreuses architectures, puis optimiser chacune d'elles et choisir la meilleure. « Mais la formation prend un temps non négligeable », explique Mengye Ren, actuellement chercheur à Google Brain. Il serait impossible de former et de tester chaque architecture de réseau candidate. « Cela ne s'adapte pas très bien, surtout si l'on considère des millions de conceptions possibles. »

GHN-2 de Knyazev il améliore deux aspects importants de l'hyper-réseau de graphes, (GHN), construit par Mengye Ren

Knyazev et son équipe appellent leur hyper-réseau GHN-2, et il améliore deux aspects importants de l'hyperréseau de graphes construit par Ren et ses collègues. En 2018, Ren, ainsi que son ancien collègue de l'Université de Toronto, Chris Zhang, et leur conseillère Raquel Urtasun, ont donc tenté une approche différente. Ils ont conçu ce qu'ils ont appelé un hyper-réseau graphique (GHN) pour trouver la meilleure architecture de réseau neuronal profond pour résoudre une certaine tâche, étant donné un ensemble d'architectures candidates.

Le nom de ce réseau décrit bien leur approche. Le terme « graphe » fait référence à l'idée que l'architecture d'un réseau neuronal profond peut être considérée comme un graphe mathématique - une collection de points, ou nœuds, reliés par des lignes, ou arêtes. Ici, les nœuds représentent les unités de calcul (généralement, une couche entière d'un réseau neuronal), et les arêtes représentent la manière dont ces unités sont interconnectées.

Fonctionnement de l’hyper-réseau de graphes

Un hyper-réseau de graphes commence par une architecture qui doit être optimisée (appelons-la le candidat). Il fait ensuite de son mieux pour prédire les paramètres idéaux pour le candidat. L'équipe définit ensuite les paramètres d'un réseau neuronal réel en fonction des valeurs prédites et le teste sur une tâche donnée. L'équipe de Ren a montré que cette méthode pouvait être utilisée pour classer les architectures candidates et sélectionner la plus performante.

Lorsque Knyazev et ses collègues ont découvert l'idée de l'hyper-réseau graphique, ils ont compris qu'ils pouvaient s'en inspirer. Dans leur nouvel article, l'équipe montre comment utiliser les GHN non seulement pour trouver la meilleure architecture à partir d'un ensemble d'échantillons, mais aussi pour prédire les paramètres du meilleur réseau afin qu'il soit performant dans l'absolu. Et dans les situations où le meilleur n'est pas assez bon, le réseau peut être entraîné davantage en utilisant la descente de gradient.

« C'est un article très solide. Il contient beaucoup plus d'expériences que ce que nous avons fait », a déclaré Ren à propos de ce nouveau travail. Ils s'efforcent d'améliorer les performances absolues, ce qui est formidable. » Premièrement, ils se sont appuyés sur la technique de Ren consistant à représenter l'architecture d'un réseau neuronal sous la forme d'un graphe. Chaque nœud du graphe code des informations sur un sous-ensemble de neurones qui effectuent un certain type de calcul. Les bords du graphe décrivent la manière dont les informations circulent d'un nœud à l'autre, de l'entrée à la sortie.

La deuxième idée dont ils se sont inspirés est la méthode d'entraînement de l'hyper-réseau pour faire des prédictions sur les nouvelles architectures candidates. Cela nécessite deux autres réseaux neuronaux. Le premier effectue des calculs sur le graphe candidat original, ce qui entraîne des mises à jour des informations associées à chaque nœud, et le second prend les nœuds mis à jour en entrée et prédit les paramètres des unités de calcul correspondantes du réseau neuronal candidat. Ces deux réseaux ont également leurs propres paramètres, qui doivent être optimisés avant que l'hyper-réseau puisse prédire correctement les valeurs des paramètres.
Pour ce faire, disent-ils, « on a besoin de données d'entraînement dans ce cas, un échantillon aléatoire d'architectures de réseaux neuronaux artificiels (ANN) possibles ».

« Pour chaque architecture de l'échantillon, vous commencez par un graphe, puis vous utilisez l'hyper-réseau de graphes pour prédire les paramètres et initialiser l'ANN candidat avec les paramètres prédits. L'ANN exécute ensuite une tâche spécifique, telle que la reconnaissance d'une image. Vous calculez la perte subie par l'ANN et, au lieu de mettre à jour les paramètres de l'ANN pour obtenir une meilleure prédiction, vous mettez à jour les paramètres de l'hyper-réseau qui a effectué la prédiction en premier lieu.

« Cela permet à l'hyper-réseau de faire mieux la prochaine fois. Maintenant, itérez sur chaque image d'un ensemble de données d'entraînement étiquetées et sur chaque ANN de l'échantillon aléatoire d'architectures, en réduisant la perte à chaque étape, jusqu'à ce qu'il ne puisse pas faire mieux. À un moment donné, vous obtenez un hyper-réseau formé. »

Selon Anil Ananthaswamy, l'équipe de Knyazev a repris ces idées et a écrit son propre logiciel en partant de zéro, puisque l'équipe de Ren n'a pas rendu public son code source. Ensuite, Knyazev et ses collègues l'ont amélioré. Pour commencer, ils ont identifié 15 types de nœuds qui peuvent être mélangés et assortis pour construire presque n'importe quel réseau neuronal profond moderne. Ils ont également réalisé plusieurs avancées pour améliorer la précision des prédictions.

GHN-2

Plus important encore, pour s'assurer que GHN-2 apprend à prédire les paramètres d'un large éventail d'architectures de réseaux neuronaux cibles, Knyazev et ses collègues ont créé un ensemble de données unique comprenant un million d'architectures possibles. « Pour entraîner notre modèle, nous avons créé des architectures aléatoires qui sont aussi diverses que possible », a déclaré Knyazev. En conséquence, les prouesses prédictives de GHN-2 sont plus susceptibles de bien se généraliser aux architectures cibles non vues. « Ils peuvent, par exemple, tenir compte de toutes les architectures de pointe typiques que les gens utilisent », a déclaré Thomas Kipf, chercheur de l'équipe « cerveau » de Google Research à Amsterdam. « C'est une contribution importante ».

Une fois que Knyazev et son équipe l'ont entraîné à prédire les paramètres d'une tâche donnée, comme la classification d'images dans un ensemble de données particulier, ils ont testé sa capacité à prédire les paramètres de toute architecture candidate aléatoire. Ce nouveau candidat pouvait avoir des propriétés similaires à celles des millions d'architectures de l'ensemble de données d'entraînement, ou être différent une sorte d'aberration. Dans le premier cas, on dit que l'architecture cible est dans la distribution ; dans le second, elle est hors de la distribution. Les réseaux neuronaux profonds échouent souvent lorsqu'ils font des prédictions pour ce dernier cas, c'est pourquoi il était important de tester GHN-2 sur de telles données.

Armée d'un GHN-2 entièrement entraîné, l'équipe a prédit les paramètres de 500 architectures de réseaux cibles aléatoires inédites. Ensuite, ces 500 réseaux, dont les paramètres ont été réglés sur les valeurs prédites, ont été confrontés aux mêmes réseaux formés à l'aide de la descente de gradient stochastique. Le nouvel hyper-réseau a souvent tenu tête à des milliers d'itérations de SGD, et a même parfois fait mieux, bien que certains résultats soient plus mitigés.

Pour un ensemble de données d'images connu sous le nom de CIFAR-10, la précision moyenne de GHN-2 sur les architectures en distribution était de 66,9 %, ce qui se rapproche de la précision moyenne de 69,2 % obtenue par les réseaux formés à l'aide de 2 500 itérations de SGD. Pour les architectures hors distribution, GHN-2 a obtenu des résultats étonnamment bons, avec une précision d'environ 60 %.

En particulier, il a obtenu une précision respectable de 58,6 % pour une architecture spécifique de réseau neuronal profond bien connue appelée ResNet-50. "La généralisation à ResNet-50 est étonnamment bonne, étant donné que ResNet-50 est environ 20 fois plus grand que notre architecture d'entraînement moyenne", a déclaré M. Knyazev lors de la conférence NeurIPS 2021, la réunion phare du domaine.
GHN-2 ne s'est pas aussi bien comporté avec ImageNet, un ensemble de données beaucoup plus important : en moyenne, sa précision n'était que de 27,2 %. Toutefois, ce résultat est comparable à la précision moyenne de 25,6 % obtenue par les mêmes réseaux formés à l'aide de 5 000 étapes de SGD.

« Les résultats sont définitivement super impressionnants, a déclaré Petar Veličković, chercheur salarié chez DeepMind à Londres. Ils réduisent fondamentalement les coûts énergétiques de manière significative ». Pour certains analystes, à la lecture des détails fournis par le chercheur Boris Knyazev et ses collègues, l’annonce de la création d’une IA qui crée une autre IA serait trompeur. « L'IA a presque toujours entraîné l'IA, au moins pour toute sorte de modèle ML de réseau neuronal qui fonctionne correctement », indique l’un d’entre eux sur reddit. « C'est un bon travail, cependant, ils ne construisent pas l'IA de manière autonome comme le suggère le titre, ils prédisent juste certains paramètres pour une IA en économisant un peu de temps d'entraînement. Il y a toujours beaucoup d'efforts humains impliqués », déclare un autre internaute.

Source : Des chercheurs créent l'IA qui crée l'IA, selon Anil Ananthaswamy

Et vous ?

Quel est votre avis sur le sujet ?

Selon vous, peut-on parler d'une IA qui crée une autre IA ?

Voir aussi :

La justice par apprentissage automatique : la Chine a créé un « procureur » doté d'une intelligence artificielle, capable d'inculper des personnes pour des crimes avec une précision de 97 %

45 % des utilisateurs déclarent que l'IA est une bonne chose, 43 % souhaitent cependant plus de transparence, seuls 15 % craignent que l'IA ne finisse par leur prendre leur emploi, selon Cogito

Des chercheurs du MIT viennent de découvrir une IA qui imite le cerveau par elle-même, l'apprentissage automatique commence à ressembler beaucoup à la cognition humaine

La France somme Clearview AI, l'entreprise américaine spécialisée dans la reconnaissance faciale, de supprimer ses données, elle dispose d'un délai de deux mois pour respecter les injonctions

Vous avez lu gratuitement 1 324 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Des chercheurs créent une IA qui crée de l'IA, en présence d'un nouveau réseau neuronal profond non entraîné,

Ce qui soulève de nouveau la question de la réelle définition de l'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Des chercheurs créent une IA qui crée de l'IA, en présence d'un nouveau réseau neuronal profond non entraîné, Ce qui soulève de nouveau la question de la réelle définition de l'IA

Des chercheurs créent une IA qui crée de l'IA, en présence d'un nouveau réseau neuronal profond non entraîné,

Ce qui soulève de nouveau la question de la réelle définition de l'IA