Le chercheur Boris Knyazev, de l'Université de Guelph, en Ontario, et ses collègues auraient créé une Intelligence artificielle (IA), qui crée de l'IA. Ils ont conçu et formé un « hyper-réseau », une sorte de superordre d'autres réseaux neuronaux qui pourrait accélérer le processus de formation. À partir d'un nouveau réseau neuronal profond non formé, conçu pour une tâche donnée. L'hyper-réseau prédit les paramètres du nouveau réseau en quelques fractions de seconde, ce qui, en théorie, pourrait rendre la formation inutile. Étant donné que l'hyper-réseau apprend les modèles extrêmement complexes des réseaux neuronaux profonds, ces travaux pourraient également avoir des implications théoriques plus approfondies. Cependant, au regard des détails fournis, peut-on vraiment parler de création d’IA à partir d’une autre IA ? Cela la soulève-telle pas la nécessité de s’accorder sur la définition et le fonctionnement même d’une IA ?L’IA pourrait se définit comme la capacité d'un ordinateur numérique ou d'un robot contrôlé par ordinateur à effectuer des tâches généralement associées à des êtres intelligents. Le terme est fréquemment appliqué au projet de développement de systèmes dotés des processus intellectuels caractéristiques des humains, tels que la capacité de raisonner, de découvrir un sens, de généraliser ou d'apprendre à partir d'expériences passées. Depuis le développement de l'ordinateur numérique dans les années 1940, il a été démontré que les ordinateurs peuvent être programmés pour effectuer des tâches très complexes - comme, par exemple, découvrir les preuves de théorèmes mathématiques ou jouer aux échecs - avec une grande compétence.
Pourtant, malgré les progrès constants de la vitesse de traitement et de la capacité de mémoire des ordinateurs, il n'existe pas encore de programmes capables d'égaler la flexibilité humaine dans des domaines plus vastes ou dans des tâches exigeant de grandes connaissances quotidiennes. D'autre part, certains programmes ont atteint les niveaux de performance des experts et des professionnels humains dans l'exécution de certaines tâches spécifiques, de sorte que l'intelligence artificielle dans ce sens limité se retrouve dans des applications aussi diverses que le diagnostic médical, les moteurs de recherche et la reconnaissance de la voix ou de l'écriture.
Selon la célèbre Encyclopédie Britannica, la recherche en IA suit deux méthodes distinctes, et dans une certaine mesure concurrente, l'approche symbolique (ou « descendante » ) et l'approche connexionniste (ou « ascendante » ). L'approche descendante cherche à reproduire l'intelligence en analysant la cognition indépendamment de la structure biologique du cerveau, en termes de traitement des symboles, d'où l'étiquette symbolique. L'approche ascendante, quant à elle, consiste à créer des réseaux neuronaux artificiels en imitant la structure du cerveau, d'où le terme connexionniste.
Dans The Fundamentals of Learning (1932), Edward Thorndike, psychologue à l'université Columbia de New York, a été le premier à suggérer que l'apprentissage humain consistait en une propriété inconnue des connexions entre les neurones du cerveau. Dans The Organization of Behavior (1949), Donald Hebb, psychologue à l'université McGill de Montréal (Canada), a suggéré que l'apprentissage consiste spécifiquement à renforcer certains schémas d'activité neuronale en augmentant la probabilité (poids) de l'allumage des neurones induits entre les connexions associées. La notion de connexions pondérées est décrite dans une section ultérieure, le connexionnisme.
Historiquement, le premier programme d'IA réussi a été écrit en 1951 par Christopher Strachey, qui deviendra plus tard directeur du Programming Research Group de l'université d'Oxford. Le programme de dames de Strachey fonctionnait sur l'ordinateur Ferranti Mark I de l'université de Manchester, en Angleterre. À l'été 1952, ce programme pouvait jouer une partie complète de dames à une vitesse raisonnable.
Le premier programme d'IA à fonctionner aux États-Unis était également un programme de dames, écrit en 1952 par Arthur Samuel pour le prototype de l'IBM 701. Samuel a repris l'essentiel du programme de dames de Strachey et l'a considérablement étendu pendant plusieurs années. En 1955, il a ajouté des fonctions permettant au programme d'apprendre par l'expérience. Samuel a inclus des mécanismes d'apprentissage par cœur et de généralisation, améliorations qui ont finalement permis à son programme de gagner une partie contre un ancien champion de dames du Connecticut en 1962.
« Actuellement, les meilleures méthodes de formation et d'optimisation des réseaux neuronaux profonds sont des variantes d'une technique appelée descente de gradient stochastique (SGD). La formation consiste à minimiser les erreurs commises par le réseau dans une tâche donnée, telle que la reconnaissance d'images », indique Anil Ananthaswamy, contributeur.
« Un algorithme de descente de gradient stochastique passe en revue de nombreuses données étiquetées pour ajuster les paramètres du réseau et réduire les erreurs, ou pertes. La SGD est un processus itératif qui consiste à descendre des valeurs élevées de la fonction de perte vers une certaine valeur minimale, qui représente des valeurs de paramètres suffisamment bonnes (ou parfois même les meilleures possibles) », explique-t-il.
Cependant, certains analystes estiment que, cette technique ne fonctionne qu'une fois que l'on dispose d'un réseau à optimiser. Pour construire le réseau neuronal initial, généralement constitué de plusieurs couches de neurones artificiels qui mènent d'une entrée à une sortie, les ingénieurs devraient s'appuyer sur des intuitions et des règles empiriques. Ces architectures peuvent varier en termes de nombre de couches de neurones, de nombre de neurones par couche, etc.
On peut, en théorie, commencer avec de nombreuses architectures, puis optimiser chacune d'elles et choisir la meilleure. « Mais la formation prend un temps non négligeable », explique Mengye Ren, actuellement chercheur à Google Brain. Il serait impossible de former et de tester chaque architecture de réseau candidate. « Cela ne s'adapte pas très bien, surtout si l'on considère des millions de conceptions possibles. »
GHN-2 de Knyazev il améliore deux aspects importants de l'hyper-réseau de graphes, (GHN), construit par Mengye Ren
Knyazev et son équipe appellent leur hyper-réseau GHN-2, et il améliore deux aspects importants de l'hyperréseau de graphes construit par Ren et ses collègues. En 2018, Ren, ainsi que son ancien collègue de l'Université de Toronto, Chris Zhang, et leur conseillère Raquel Urtasun, ont donc tenté une approche différente. Ils ont conçu ce qu'ils ont appelé un hyper-réseau graphique (GHN) pour trouver la meilleure architecture de réseau neuronal profond pour résoudre une...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.