Les travaux de recherche de Hinton concernent principalement les réseaux de neurones artificiels en lien avec l'apprentissage automatique et l'étude de la mémoire ou de la perception. Il a été l'un des premiers chercheurs à avoir fait la preuve de l'utilisation de l'algorithme de rétropropagation pour l'entraînement de réseaux de neurones multi-couches. Il a co-inventé les machines de Boltzmann avec David Ackley et Terry Sejnowski.
En 2012, il a remporté la troisième édition du concours annuel ImageNet qui mettait au défi les équipes de créer des systèmes de vision par ordinateur capables de reconnaître 1 000 objets, des animaux aux paysages en passant par les humains.
Au cours des deux premières années, les meilleures équipes n'avaient même pas réussi à atteindre une précision de 75%. Mais à la troisième édition (celle de 2012 donc), le groupe de trois chercheurs (le professeur et deux de ses étudiants) a dépassé ce plafond. Ils ont remporté la compétition par un incroyable 10,8 points de pourcentage. Ce professeur s'appelait Geoffrey Hinton et la technique qu'ils utilisaient s'appelait l'apprentissage profond.
Hinton avait en fait travaillé avec l'apprentissage profond depuis les années 1980, mais son efficacité avait été limitée par un manque de données et de puissance de calcul. Sa foi inébranlable dans la technique a finalement porté ses fruits.
En 2012, Hinton a réalisé un cours en ligne sur la plateforme Coursera en 2012 portant sur les réseaux de neurones artificiels. La quatrième année du concours ImageNet, presque toutes les équipes utilisaient l'apprentissage profond et obtenaient des gains de précision très intéressants. Plus tard, l'apprentissage en profondeur a été appliqué à des tâches allant au-delà de la reconnaissance d'image, et dans un large éventail d'industries également. Notons qu'en 2013, il a rejoint Google. Actuellement, il fait partie de l'équipe Google Brain et est professeur au département d'informatique de l'Université de Toronto.
En novembre 2017 il présente le concept de capsule networks (réseaux de neurones à capsules) qu'il présente comme un tournant de l'apprentissage profond.
L'année dernière, pour ses contributions fondamentales dans le domaine, Hinton a reçu le prix Turing, aux côtés d'autres pionniers de l'IA, Yann LeCun et Yoshua Bengio. Le 20 octobre, à l'occasion de la conférence annuelle EmTech MIT (qui s'est tenu en ligne cette année) du MIT Technology Review, il s'est exprimé au sujet de l’état du domaine et de la direction à prendre. Voici un résumé des échanges :
MIT : Vous pensez que l'apprentissage en profondeur suffira à reproduire toute l'intelligence humaine. Qu'est-ce qui vous rend si sûr?
Geoffrey Hinton : je crois que l’apprentissage en profondeur va pouvoir tout faire, mais je pense qu’il va falloir faire quelques percées conceptuelles. Par exemple, en 2017, Ashish Vaswani et ses collègues ont introduit des transformateurs, qui dérivent de très bons vecteurs représentant la signification des mots. C'était une percée conceptuelle. Elle est désormais utilisée dans presque tous les meilleurs traitements de langage naturel. Nous allons avoir besoin de plusieurs autres percées comme celle-là.
Et si nous disposions de ces percées, serions-nous capables d'approcher de l'intelligence humaine grâce à l'apprentissage en profondeur ?
Oui. En particulier, des percées liées à la façon dont vous obtenez de grands vecteurs d'activité neuronale pour implémenter des choses comme la raison. Mais nous avons également besoin d'une augmentation massive d'échelle. Le cerveau humain a environ 100 billions de paramètres, ou synapses. Ce que nous appelons maintenant un très gros modèle, comme GPT-3, en compte 175 milliards. C'est mille fois plus petit que le cerveau. GPT-3 peut désormais générer un texte assez plausible, et il est encore minuscule par rapport au cerveau.
Geoffrey Hinton
Lorsque vous parlez d'échelle, voulez-vous dire de plus grands réseaux de neurones, plus de données ou les deux?
Je parle des deux. Il y a une sorte de décalage entre ce qui se passe en informatique et ce qui se passe avec les gens. Les gens ont une énorme quantité de paramètres par rapport à la quantité de données qu'ils obtiennent. Les réseaux neuronaux sont étonnamment bons pour traiter une quantité plutôt petite de données, avec un grand nombre de paramètres, mais les gens sont encore meilleurs.
Beaucoup de gens sur le terrain croient que le bon sens est la prochaine grande capacité à laquelle il faudrait s'attaquer. Êtes-vous d'accord?
Je reconnais que c’est l’une des choses les plus importantes. Je pense également que le contrôle moteur est très important et que les réseaux neuronaux profonds deviennent maintenant bons dans ce domaine. En particulier, des travaux récents chez Google ont montré que vous pouvez faire du contrôle de la motricité fine et combiner cela avec le langage, de sorte que vous puissiez ouvrir un tiroir et retirer un bloc, et le système peut vous dire en langage naturel ce qu'il fait.
Pour des choses comme GPT-3, qui génère le texte [lorsque le système dit en langage naturel ce qu'il fait, ndlr], il est clair qu'il doit comprendre beaucoup plus pour générer ce texte, mais la mesure dans laquelle il comprend n'est pas tout à fait claire. Toutefois, si une entité venait à ouvrir le tiroir et en sortir un bloc puis déclarer : « Je viens d'ouvrir un tiroir et j'en ai sorti un bloc », il est difficile de dire qu'elle ne comprend pas ce qu'elle fait.
Le domaine de l'IA a toujours considéré le cerveau humain comme sa plus grande source d'inspiration et différentes approches de l'IA sont issues de différentes théories des sciences cognitives. Pensez-vous que le cerveau construit réellement des représentations du monde extérieur pour le comprendre, ou est-ce juste une façon utile de le penser?
Il y a longtemps en sciences cognitives, il y avait un débat entre deux écoles de pensée. L'un était dirigé par Stephen Kosslyn, et il pensait que lorsque vous manipulez des images visuelles dans votre esprit, vous avez un tableau de pixels et vous les déplacez. L'autre école de pensée était plus conforme à l'IA conventionnelle. Il disait : « Non, non, c’est un non-sens. Ce sont des descriptions structurelles hiérarchiques. Vous avez une structure symbolique dans votre esprit, et c'est ce que vous manipulez. »
Je pense qu'ils faisaient tous les deux la même erreur. Kosslyn pensait que nous manipulions les pixels parce que les images externes sont faites de pixels, et c'est une représentation que nous comprenons. Les gens du symbole pensaient que nous manipulions les symboles parce que nous représentons également les choses sous forme de symboles, et que c'est une représentation que nous comprenons. Je pense que c’est tout aussi faux. Ce qui est à l’intérieur du cerveau, ce sont ces grands vecteurs d’activité neuronale.
Certaines personnes croient encore que la représentation symbolique est l'une des approches de l'IA.
Absolument. J'ai de bons amis comme Hector Levesque, qui croit vraiment en l'approche symbolique et a fait un excellent travail dans ce domaine. Je ne suis pas d'accord avec lui, mais l'approche symbolique est une chose qu'il est parfaitement raisonnable d'essayer. Mais je suppose qu’à la fin, nous réaliserons que les symboles existent simplement dans le monde extérieur et que nous effectuons des opérations internes sur de gros vecteurs.
Quelle est selon vous votre vision la plus contrariante de l'avenir de l'IA?
Eh bien, mon problème est que j'ai ces points de vue à contre-courant, puis cinq ans plus tard, ils sont courants. La plupart de mes vues à contre-courant des années 1980 sont maintenant largement acceptées. Il est assez difficile maintenant de trouver des personnes qui ne sont pas d’accord avec eux. Alors oui, j'ai été en quelque sorte miné dans mes vues contraires.
Une intelligence humaine loin de pouvoir être reproduite
Les applications actuelles de l'intelligence artificielle en générale et de l'apprentissage profond en particulier montrent que nous sommes encore loin de cet idéal du chercheur. Nous pouvons citer le cas du système de caméra Pixellot qui a confondu la tête chauve d'un arbitre au ballon et l'a suivi tout au long d'un match de football. De nombreux téléspectateurs se sont plaints de ne pas avoir pu voir leur équipe marquer un but parce que la caméra « n'arrêtait pas de penser que la tête chauve du juge de touche était la balle », et certains ont même suggéré que le club devrait fournir au juge de touche une coupe ou un chapeau.
Nous pouvons aussi parler du chatbot médical GPT-3 d'OpenAI qui se trompe complètement dans ses diagnostics médicaux.
Le diagnostic est une tâche plus complexe de questions-réponses : il s'agit de saisir les symptômes et d'avoir les éventuelles conditions sous-jacentes qui pourraient expliquer ces symptômes. À la suite des tests, Nabla, une startup française, a jugé que les récents systèmes de contrôle des symptômes (Babylon, KHealth, Ada, etc.), s'ils ne sont pas parfaits, semblent être une meilleure option que GPT-3, car ils ont été soigneusement optimisés à cette seule fin. L'un des avantages que possèdent ces systèmes est qu'ils sont en mesure de produire différents diagnostics avec leurs probabilités.
Selon Nabla, cela constitue une mesure de confiance pour le praticien. Les tests ont montré que GPT-3 ignore la fièvre simulée d’une petite fille, mais suggère une ethmoïdite et mentionne une “éruption” qui n'existe pas.
Source : entretien avec Geoffrey Hinton
Et vous ?
Êtes-vous d'accord avec les propos du chercheur en général et de sa déclaration selon laquelle le deep learning pourra reproduire l'intelligence humaine ?
Voir aussi :
Une caméra IA confond la tête chauve d'un arbitre au ballon et le suit tout au long d'un match de football. Les téléspectateurs suggèrent que le juge de touche porte un chapeau la prochaine fois
Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider lors d'un test réalisé par Nabla
Microsoft met au point une IA qui restaure automatiquement les vieilles photos endommagées en éliminant les dégradations et les rayures, une technique basée sur l'apprentissage profond