La course à l'outil de recherche s'appuyant sur l'IA entre Google et Microsoft aura un impact sur l'environnement

En raison d'une augmentation des émissions mondiales de gaz à effet de serre

Le 15 février 2023 à 19:05, par Stéphane le calme

81PARTAGES

L'industrie de l'intelligence artificielle est souvent comparée à l'industrie pétrolière : une fois extraites et raffinées, les données, comme le pétrole, peuvent être une marchandise très lucrative. Maintenant, il semble que la métaphore puisse s'étendre encore plus loin. Comme son homologue fossile, le processus d'apprentissage en profondeur a un impact environnemental démesuré.

Dans un nouvel article, des chercheurs de l'Université du Massachusetts à Amherst ont effectué une évaluation du cycle de vie pour former plusieurs grands modèles d'IA courants. Ils ont découvert que le processus peut émettre plus de 626 000 livres d'équivalent en dioxyde de carbone, soit près de cinq fois les émissions à vie d'une voiture américaine moyenne (et cela inclut la fabrication de la voiture elle-même).

Microsoft Bing s'est récemment associée à OpenAI pour proposer un bot basé sur l'intelligence artificielle de type ChatGPT. Le chatbot a ouvert une nouvelle porte à des idées plus innovantes, alors que le poids lourd de la navigation Google a commencé à planifier de lier l'IA à son moteur de recherche.

En conséquence, les résultats contenant des informations complexes seront disponibles dans une version plus facilement compréhensible. Microsoft avait déjà prévu d'introduire ChatGPT sur Bing, tandis que Google travaille sur son propre service expérimental d'intelligence artificielle conversationnelle. Initialement, la société a nommé le service Bard.

Cependant, avec la technologie qui progresse de jour en jour, l'environnement est potentiellement plus à risque de subir son impact. Il a été rapporté que les ressources nécessaires pour instruire un seul système d'IA peuvent entraîner l'émission de 1 000 livres de carbone. Jusqu'à présent, la consommation d'Internet représentait près de 4 % de l'effet de serre total.

C'est en tout cas ce que suggère une étude dont le résumé est celui-ci :

Les progrès récents du matériel et de la méthodologie de formation des réseaux de neurones ont inauguré une nouvelle génération de grands réseaux formés sur des données abondantes. Ces modèles ont obtenu des gains de précision notables dans de nombreuses tâches de PNL. Cependant, ces améliorations de précision dépendent de la disponibilité de ressources de calcul exceptionnellement importantes qui nécessitent une consommation d'énergie tout aussi importante. En conséquence, ces modèles sont coûteux à former et à développer, à la fois financièrement, en raison du coût du matériel et de l'électricité ou du temps de calcul dans le cloud, et environnementalement, en raison de l'empreinte carbone nécessaire pour alimenter le matériel de traitement de tenseur moderne. Dans cet article, nous portons cette question à l'attention des chercheurs en PNL en quantifiant les coûts financiers et environnementaux approximatifs de la formation d'une variété de modèles de réseaux neuronaux récemment réussis pour la PNL. Sur la base de ces résultats, nous proposons des recommandations concrètes pour réduire les coûts et améliorer l'équité dans la recherche et la pratique de la PNL.

L'impact environnemental du processus de formation du modèle pour le traitement du langage naturel

L'article examine spécifiquement le processus de formation du modèle pour le traitement du langage naturel (PNL), le sous-domaine de l'IA qui se concentre sur l'enseignement des machines à gérer le langage humain. Au cours des deux dernières années, la communauté PNL a atteint plusieurs jalons de performance remarquables dans la traduction automatique, la complétion de phrases et d'autres tâches d'analyse comparative standard. Le tristement célèbre modèle GPT-2 d'OpenAI, par exemple, excellait dans la rédaction de fake news convaincantes.

Mais de telles avancées ont nécessité la formation de modèles toujours plus grands sur des ensembles de données tentaculaires de phrases récupérées sur Internet. L'approche est coûteuse en calcul et très gourmande en énergie.

Les chercheurs ont examiné quatre modèles sur le terrain qui ont été à l'origine des plus grandes avancées en matière de performances : Transformer, ELMo, BERT et GPT-2. Ils se sont entraînés chacun sur un seul GPU, parfois pendant une journée, pour mesurer sa consommation d'énergie. Ils ont ensuite utilisé le nombre d'heures d'entraînement indiqué dans les documents originaux du modèle pour calculer l'énergie totale consommée au cours du processus d'entraînement complet. Ce nombre a été converti en livres de dioxyde de carbone équivalent sur la base du mix énergétique moyen aux États-Unis, qui correspond étroitement au mix énergétique utilisé par AWS d'Amazon, le plus grand fournisseur de services cloud.

Le mix énergétique, ou bouquet énergétique, est la répartition des différentes sources d'énergies primaires consommées dans une zone géographique donnée. La part des énergies primaires dans la consommation mondiale, d'un pays, d'une collectivité, d'une industrie est généralement exprimée en pourcentages.

Ils ont constaté que les coûts informatiques et environnementaux de la formation augmentaient proportionnellement à la taille du modèle, puis explosaient lorsque des étapes de réglage supplémentaires étaient utilisées pour augmenter la précision finale du modèle. En particulier, ils ont découvert qu'un processus de réglage connu sous le nom de recherche d'architecture neuronale, qui tente d'optimiser un modèle en modifiant progressivement la conception d'un réseau neuronal par des essais et des erreurs exhaustifs, avait des coûts associés extraordinairement élevés pour un faible avantage en termes de performances. Sans cela, le modèle le plus coûteux, BERT, avait une empreinte carbone d'environ 1 400 livres de dioxyde de carbone, proche d'un vol aller-retour transaméricain pour une personne.

De plus, les chercheurs notent que les chiffres ne doivent être considérés que comme des valeurs de référence. « Former un seul modèle est le minimum de travail que vous pouvez faire », déclare Emma Strubell, candidate au doctorat à l'Université du Massachusetts, Amherst, et auteur principal de l'article. En pratique, il est beaucoup plus probable que les chercheurs en IA développent un nouveau modèle à partir de zéro ou adaptent un modèle existant à un nouvel ensemble de données, l'un ou l'autre pouvant nécessiter de nombreuses autres séries de formation et de réglage.

Pour mieux comprendre à quoi pourrait ressembler le pipeline de développement complet en termes d'empreinte carbone, Strubell et ses collègues ont utilisé un modèle qu'ils avaient produit dans un article précédent comme étude de cas. Ils ont constaté que le processus de construction et de test d'un modèle final digne d'un papier nécessitait la formation de 4 789 modèles sur une période de six mois. Converti en équivalent CO2, il a émis plus de 78 000 livres et est probablement représentatif d'un travail typique sur le terrain.

L'importance de ces chiffres est colossale, surtout si l'on considère les tendances actuelles de la recherche en IA. « En général, une grande partie des dernières recherches sur l'IA négligent l'efficacité, car de très grands réseaux de neurones se sont révélés utiles pour une variété de tâches, et les entreprises et les institutions qui ont un accès abondant aux ressources informatiques peuvent en tirer parti pour obtenir un avantage concurrentiel. »,...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :