IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Vous pouvez désormais télécharger le code source d'AlexNet, le réseau de neurones convolutionnels à l'origine de l'essor de l'IA
Qui a prouvé que « l'apprentissage profond » pouvait marcher

Le , par Stéphane le calme

11PARTAGES

6  0 
Le Computer History Museum (CHM), en collaboration avec Google, a rendu public le code source d'AlexNet, un réseau de neurones convolutionnels (CNN) qui a révolutionné le domaine de l'intelligence artificielle en 2012 en prouvant que « l'apprentissage profond » pouvait réaliser des choses que les techniques d'IA conventionnelles ne pouvaient pas faire. L'apprentissage profond, qui utilise des réseaux neuronaux multicouches capables d'apprendre à partir de données sans programmation explicite, représentait une rupture importante par rapport aux approches traditionnelles de l'IA qui s'appuyaient sur des règles et des caractéristiques élaborées à la main. Cette mise à disposition offre aux chercheurs et passionnés d'IA une opportunité unique d'explorer les origines d'une technologie qui façonne notre monde numérique actuel.

La technologie de l’IA créative et générative permet aux machines de créer du contenu et de réaliser des tâches qui demandaient auparavant l’ingéniosité humaine, en se basant sur les caractéristiques et les motifs des données. Elle peut générer des textes, des images, des vidéos, de la musique, etc., dans différents styles et domaines. Elle utilise des modèles d’IA comme les GAN, les RNN ou les transformateurs pour produire du contenu.

Les premiers systèmes d’IA étaient limités à une intelligence artificielle faible, se spécialisant dans une seule tâche et l’exécutant parfois aussi bien ou mieux que l’homme. Par exemple, MYCIN ne faisait que diagnostiquer et traiter les infections bactériennes. SYSTRAN ne faisait que traduire automatiquement. Deep Blue ne jouait qu’aux échecs.

Plus tard, des modèles de réseaux neuronaux profonds entraînés par apprentissage supervisé, comme AlexNet et AlphaGo, ont réussi à accomplir un certain nombre de tâches de perception et de décision automatiques qui étaient difficiles à réaliser avec des systèmes basés sur des heuristiques, des règles ou des connaissances. Plus récemment, nous avons vu des modèles de pointe capables d’effectuer une grande variété de tâches sans être entraînés spécifiquement pour chacune d’elles.

Google et le Computer History Museum (CHM) ont publié conjointement le code source d'AlexNet

Le code Python, désormais disponible sur la page GitHub du CHM en tant que logiciel libre, offre aux passionnés d'IA et aux chercheurs un aperçu d'un moment clé de l'histoire de l'informatique. AlexNet a marqué un tournant dans le domaine de l'IA, car il était capable d'identifier des objets sur des photographies avec une précision sans précédent, classant correctement des images dans l'une des 1 000 catégories telles que « fraise », « bus scolaire » ou « golden retriever », avec beaucoup moins d'erreurs que les systèmes antérieurs ».

À l'instar des circuits originaux de l'ENIAC ou des plans de la machine à différences de Babbage, l'examen du code d'AlexNet pourrait permettre aux historiens de comprendre comment une mise en œuvre relativement simple est à l'origine d'une technologie qui a remodelé notre monde. Si l'apprentissage profond a permis des avancées dans les domaines des soins de santé, de la recherche scientifique et des outils d'accessibilité, il a également favorisé des développements inquiétants tels que les « deepfakes », la surveillance automatisée et le risque d'un déplacement généralisé des emplois.

Mais en 2012, ces conséquences négatives étaient encore perçues par beaucoup comme de lointains rêves de science-fiction. Au contraire, les experts étaient simplement stupéfaits qu'un ordinateur puisse enfin reconnaître des images avec une précision proche de celle de l'homme.

Apprendre aux ordinateurs à voir

Comme l'explique le CHM dans son billet de blog détaillé, AlexNet est né des travaux d'Alex Krizhevsky et d'Ilya Sutskever, étudiants diplômés de l'université de Toronto, et de leur conseiller Geoffrey Hinton. Le projet a prouvé que l'apprentissage en profondeur pouvait surpasser les méthodes traditionnelles de vision par ordinateur.

Le réseau neuronal a remporté le concours ImageNet 2012 en reconnaissant des objets dans des photos bien mieux que toute autre méthode antérieure. Yann LeCun, vétéran de la vision par ordinateur, qui a assisté à la présentation à Florence, en Italie, a immédiatement reconnu son importance pour le domaine, se levant après la présentation et qualifiant AlexNet de « tournant sans équivoque dans l'histoire de la vision par ordinateur ». AlexNet a marqué la convergence de trois technologies essentielles qui allaient définir l'IA moderne.

Selon le CHM, le musée a commencé à faire des efforts pour acquérir le code historique en 2020, lorsque Hansen Hsu (conservateur du CHM) a contacté Krizhevsky au sujet de la publication du code source en raison de son importance historique. Google ayant acquis la société DNNresearch de l'équipe en 2013, elle détenait les droits de propriété intellectuelle.

Le musée a travaillé avec Google pendant cinq ans pour négocier la publication et identifier avec soin la version spécifique qui représentait l'implémentation originale de 2012 (une distinction importante, car de nombreuses recréations étiquetées « AlexNet » existent en ligne mais ne sont pas le code authentique utilisé lors de la percée).


Capture d'écran de la base de données ImageNet prise en 2020

Comment AlexNet marchait

Si l'impact d'AlexNet sur l'IA est désormais légendaire, la compréhension de l'innovation technique qui l'a sous-tendue permet d'expliquer pourquoi elle a représenté un moment aussi décisif. L'avancée n'est pas le fruit d'une seule technique révolutionnaire, mais plutôt de la combinaison élégante de technologies existantes qui s'étaient développées séparément.

Le projet a combiné trois éléments auparavant distincts : les réseaux neuronaux profonds, les ensembles de données d'images massives et les unités de traitement graphique (GPU). Les réseaux neuronaux profonds constituaient l'architecture de base d'AlexNet, avec plusieurs couches capables d'apprendre des caractéristiques visuelles de plus en plus complexes. Le réseau a été nommé d'après Krizhevsky, qui a mis en œuvre le système et réalisé le vaste processus d'apprentissage.

Contrairement aux systèmes d'IA traditionnels qui exigeaient des programmeurs qu'ils spécifient manuellement les caractéristiques à rechercher dans les images, ces réseaux profonds pouvaient découvrir automatiquement des modèles à différents niveaux d'abstraction (des simples bords et textures dans les premières couches aux parties d'objets complexes dans les couches plus profondes). Alors qu'AlexNet utilisait une architecture CNN spécialisée dans le traitement de données en grille telles que les images, les systèmes d'IA actuels tels que ChatGPT et Claude s'appuient principalement sur des modèles Transformer. Ces modèles sont une invention de 2017 de Google Research qui excelle dans le traitement des données séquentielles et la saisie des dépendances à long terme dans les textes et autres médias grâce à un mécanisme appelé « attention ».

Pour les données d'entraînement, AlexNet a utilisé ImageNet, une base de données créée par Fei-Fei Li, professeur à l'université de Stanford, en 2006. Fei-Fei Li a rassemblé des millions d'images Internet et les a organisées à l'aide d'une base de données appelée WordNet. Des travailleurs de la plateforme Mechanical Turk d'Amazon ont aidé à étiqueter les images.

Le projet nécessitait une grande puissance de calcul pour traiter ces données. Krizhevsky a exécuté le processus de formation sur deux cartes graphiques Nvidia installées dans un ordinateur dans la chambre de ses parents. Les réseaux neuronaux effectuent de nombreux calculs matriciels en parallèle, des tâches que les puces graphiques maîtrisent bien. Nvidia, sous la direction de Jensen Huang, a rendu ses puces graphiques programmables pour des tâches non graphiques grâce à son logiciel CUDA, lancé en 2007.

L'impact d'AlexNet s'étend au-delà de la vision par...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !