Dans un nouvel article, des chercheurs de l'Université du Massachusetts à Amherst ont effectué une évaluation du cycle de vie pour former plusieurs grands modèles d'IA courants. Ils ont découvert que le processus peut émettre plus de 626 000 livres d'équivalent en dioxyde de carbone, soit près de cinq fois les émissions à vie d'une voiture américaine moyenne (et cela inclut la fabrication de la voiture elle-même).
Microsoft Bing s'est récemment associée à OpenAI pour proposer un bot basé sur l'intelligence artificielle de type ChatGPT. Le chatbot a ouvert une nouvelle porte à des idées plus innovantes, alors que le poids lourd de la navigation Google a commencé à planifier de lier l'IA à son moteur de recherche.
En conséquence, les résultats contenant des informations complexes seront disponibles dans une version plus facilement compréhensible. Microsoft avait déjà prévu d'introduire ChatGPT sur Bing, tandis que Google travaille sur son propre service expérimental d'intelligence artificielle conversationnelle. Initialement, la société a nommé le service Bard.
Cependant, avec la technologie qui progresse de jour en jour, l'environnement est potentiellement plus à risque de subir son impact. Il a été rapporté que les ressources nécessaires pour instruire un seul système d'IA peuvent entraîner l'émission de 1 000 livres de carbone. Jusqu'à présent, la consommation d'Internet représentait près de 4 % de l'effet de serre total.
C'est en tout cas ce que suggère une étude dont le résumé est celui-ci :
Les progrès récents du matériel et de la méthodologie de formation des réseaux de neurones ont inauguré une nouvelle génération de grands réseaux formés sur des données abondantes. Ces modèles ont obtenu des gains de précision notables dans de nombreuses tâches de PNL. Cependant, ces améliorations de précision dépendent de la disponibilité de ressources de calcul exceptionnellement importantes qui nécessitent une consommation d'énergie tout aussi importante. En conséquence, ces modèles sont coûteux à former et à développer, à la fois financièrement, en raison du coût du matériel et de l'électricité ou du temps de calcul dans le cloud, et environnementalement, en raison de l'empreinte carbone nécessaire pour alimenter le matériel de traitement de tenseur moderne. Dans cet article, nous portons cette question à l'attention des chercheurs en PNL en quantifiant les coûts financiers et environnementaux approximatifs de la formation d'une variété de modèles de réseaux neuronaux récemment réussis pour la PNL. Sur la base de ces résultats, nous proposons des recommandations concrètes pour réduire les coûts et améliorer l'équité dans la recherche et la pratique de la PNL.
L'impact environnemental du processus de formation du modèle pour le traitement du langage naturel
L'article examine spécifiquement le processus de formation du modèle pour le traitement du langage naturel (PNL), le sous-domaine de l'IA qui se concentre sur l'enseignement des machines à gérer le langage humain. Au cours des deux dernières années, la communauté PNL a atteint plusieurs jalons de performance remarquables dans la traduction automatique, la complétion de phrases et d'autres tâches d'analyse comparative standard. Le tristement célèbre modèle GPT-2 d'OpenAI, par exemple, excellait dans la rédaction de fake news convaincantes.
Mais de telles avancées ont nécessité la formation de modèles toujours plus grands sur des ensembles de données tentaculaires de phrases récupérées sur Internet. L'approche est coûteuse en calcul et très gourmande en énergie.
Les chercheurs ont examiné quatre modèles sur le terrain qui ont été à l'origine des plus grandes avancées en matière de performances : Transformer, ELMo, BERT et GPT-2. Ils se sont entraînés chacun sur un seul GPU, parfois pendant une journée, pour mesurer sa consommation d'énergie. Ils ont ensuite utilisé le nombre d'heures d'entraînement indiqué dans les documents originaux du modèle pour calculer l'énergie totale consommée au cours du processus d'entraînement complet. Ce nombre a été converti en livres de dioxyde de carbone équivalent sur la base du mix énergétique moyen aux États-Unis, qui correspond étroitement au mix énergétique utilisé par AWS d'Amazon, le plus grand fournisseur de services cloud.
Le mix énergétique, ou bouquet énergétique, est la répartition des différentes sources d'énergies primaires consommées dans une zone géographique donnée. La part des énergies primaires dans la consommation mondiale, d'un pays, d'une collectivité, d'une industrie est généralement exprimée en pourcentages.
Ils ont constaté que les coûts informatiques et environnementaux de la formation augmentaient proportionnellement à la taille du modèle, puis explosaient lorsque des étapes de réglage supplémentaires étaient utilisées pour augmenter la précision finale du modèle. En particulier, ils ont découvert qu'un processus de réglage connu sous le nom de recherche d'architecture neuronale, qui tente d'optimiser un modèle en modifiant progressivement la conception d'un réseau neuronal par des essais et des erreurs exhaustifs, avait des coûts associés extraordinairement élevés pour un faible avantage en termes de performances. Sans cela, le modèle le plus coûteux, BERT, avait une empreinte carbone d'environ 1 400 livres de dioxyde de carbone, proche d'un vol aller-retour transaméricain pour une personne.
De plus, les chercheurs notent que les chiffres ne doivent être considérés que comme des valeurs de référence. « Former un seul modèle est le minimum de travail que vous pouvez faire », déclare Emma Strubell, candidate au doctorat à l'Université du Massachusetts, Amherst, et auteur principal de l'article. En pratique, il est beaucoup plus probable que les chercheurs en IA développent un nouveau modèle à partir de zéro ou adaptent un modèle existant à un nouvel ensemble de données, l'un ou l'autre pouvant nécessiter de nombreuses autres séries de formation et de réglage.
Pour mieux comprendre à quoi pourrait ressembler le pipeline de développement complet en termes d'empreinte carbone, Strubell et ses collègues ont utilisé un modèle qu'ils avaient produit dans un article précédent comme étude de cas. Ils ont constaté que le processus de construction et de test d'un modèle final digne d'un papier nécessitait la formation de 4 789 modèles sur une période de six mois. Converti en équivalent CO2, il a émis plus de 78 000 livres et est probablement représentatif d'un travail typique sur le terrain.
L'importance de ces chiffres est colossale, surtout si l'on considère les tendances actuelles de la recherche en IA. « En général, une grande partie des dernières recherches sur l'IA négligent l'efficacité, car de très grands réseaux de neurones se sont révélés utiles pour une variété de tâches, et les entreprises et les institutions qui ont un accès abondant aux ressources informatiques peuvent en tirer parti pour obtenir un avantage concurrentiel. », explique Gómez-Rodríguez. « Ce type d'analyse devait être fait pour sensibiliser sur les ressources dépensées [...] et suscitera un débat ».
« Ce que beaucoup d'entre nous n'ont probablement pas compris, c'est son ampleur jusqu'à ce que nous ayons vu ces comparaisons », a fait écho Siva Reddy, post-doctorante à l'Université de Stanford qui n'a pas participé à la recherche.
La privatisation de la recherche en IA
Les résultats soulignent également un autre problème croissant dans le domaine de l'IA : l'intensité des ressources désormais nécessaires pour produire des résultats dignes d'être publiés rend de plus en plus difficile pour les personnes travaillant dans le milieu universitaire de continuer à contribuer à la recherche.
« Cette tendance à former d'énormes modèles sur des tonnes de données n'est pas réalisable pour les universitaires, en particulier les étudiants diplômés, car nous n'avons pas les ressources de calcul », déclare Strubell. « Il y a donc un problème d'accès équitable entre les chercheurs du milieu universitaire et les chercheurs de l'industrie ».
Strubell et ses coauteurs espèrent que leurs collègues tiendront compte des conclusions de l'article et aideront à uniformiser les règles du jeu en investissant dans le développement de matériel et d'algorithmes plus efficaces.
Reddy est d'accord. « Le cerveau humain peut faire des choses incroyables avec peu de consommation d'énergie », dit-il. « La plus grande question est de savoir comment pouvons-nous construire de telles machines ».
En définitive
Pour lier l'intelligence artificielle aux plateformes, la demande pour les appareils technologiques nécessaires à la fusion sera multipliée par cinq ; en conséquence, les niveaux mondiaux de gaz augmenteront également. Selon Alan Woodward, professeur à l'université basée au Royaume-Uni, la fusion des deux plateformes nécessitera plus de ressources pour traiter et stocker les données. Avec plus d'informations, plus d'installations de stockage seront également nécessaires. La représentante de Google, Jane Park, a révélé qu'actuellement, l'entreprise ne travaille qu'à un niveau expérimental, ce qui ne nécessitera pas de puissance de calcul ou de stockage élevée.
Les préoccupations environnementales ne sont pas les seules à être mises en avant. Lorsque Bard a été annoncé, le personnel de Google l'a critiqué pour avoir été mal exécuté. De même, Bing a également été surpris à partager des informations factuellement incorrectes. Selon les critiques, les résultats de recherche basés sur l'intelligence artificielle pourraient diffuser des informations incorrectes ou sembler illogiques, ce qui rendrait difficile pour les utilisateurs d'identifier ces connaissances. Dans les cas où la source Web est omise des résultats, les utilisateurs devront se fier aux informations qu'ils reçoivent. Même si c'est faux, les réponses basées sur l'IA lui donneront un aspect authentique.
Source : Energy and Policy Considerations for Deep Learning in NLP
Et vous ?
Êtes-vous surpris par les conclusions de l'étude qui indique un si grand impact environnemental ?