
Les coûts liés à la formation des modèles d'IA augmentent de façon exponentielle
Un modèle d'IA est un programme qui analyse des ensembles de données pour trouver des modèles spécifiques et faire des prédictions. Il s'agit d'une illustration d'un système qui peut recevoir des données et tirer des conclusions ou mener des actions en fonction de ces conclusions. Les modèles d'IA peuvent être utilisés pour toute une série d'activités, de la reconnaissance d'images et de vidéos au traitement du langage naturel (NLP), en passant par les systèmes de recommandation et la modélisation prédictive, ainsi que la robotique et les systèmes de contrôle. Toutefois, leur formation a un coût excessif pour les entreprises.
Anthropic CEO Dario Amodei says the cost of AI models will soon scale to the $100 billion range pic.twitter.com/sZdpwo6Ski
— Tsarathustra (@tsarnick) May 10, 2024
Selon les experts, le coût de la formation d'un modèle n'a cessé d'augmenter depuis plusieurs années. Bien que des entreprises comme OpenAI et Google ne divulguent pas les coûts précis de la formation de modèles d'IA comme GPT-4 et Gemini, il est évident qu'il s'agit d'une activité extrêmement coûteuse. Et plus ces modèles dits "frontières" deviennent grands et performants, plus leur formation est coûteuse. Lorsqu'OpenAI a publié GPT-3 en 2020, le fournisseur de services cloud Lambda a estimé la formation du modèle, qui compte 175 millions de paramètres, a coûté plus de 4,6 millions de dollars à la société d'IA.
OpenAI n'a pas révélé la taille de GPT-4 et refuse de divulguer toute information à propos du modèle pour raisons commerciales et de concurrences. Mais certaines analyses suggèrent que GPT-4 compterait 1 000 à 1 800 milliards de paramètres et le PDG d'OpenAI, Sam Altman, a vaguement évalué le coût de l'entraînement à plus de 100 millions de dollars. Dario Amodei, cofondateur et PDG d'Anthropic, déclarait en août que des modèles coûtant plus d'un milliard de dollars apparaîtraient cette année et que d'ici 2025, nous pourrions avoir un modèle de 10 milliards de dollars. Amodei vient de revoir à la hausse cette estimation.
Lors d'une interview avec Bloomberg la semaine dernière, le PDG d'Anthopic a déclaré que la formation d'un modèle pourrait coûter jusqu'à 100 milliards de dollars dans un avenir proche. Il s'agit d'un investissement colossal que seules quelques entreprises pourraient être capables de supporter. Amodei a déclaré :

Dario Amodei a cofondé Anthropic avec sa sœur Daniela en 2021. Autrefois chercheurs principaux chez OpenAI, les deux ont démissionné fin 2020 pour créer leur propre entreprise d'IA, avec l'objectif de construire des systèmes d'IA puissants et intelligents, mais aussi alignés sur les valeurs humaines. « Nous avons quitté OpenAI parce que nous étions préoccupés par la direction à prendre », a déclaré Daniela Amodei, présidente d'Anthropic, lors de l'interview.
Le coût de la formation pourrait bientôt devenir difficile à supporter pour les entreprises
Selon Dario Amodei, la puissance de calcul et les puces d'IA constitueront un facteur important de cette augmentation exponentielle des coûts. À titre de rappel, pour former leurs modèles d'IA, les entreprises s'appuient sur des unités de traitement graphique (GPU) capables de traiter de grandes quantités de données à grande vitesse. Non seulement ces puces sont rares, mais elles sont aussi extrêmement chères, les puces d'IA les plus avancées du marché étant principalement fabriquées par une seule entreprise : Nvidia. La demande des puces d'IA de Nvidia a rendu l'entreprise extrêmement riche ces dernières années.
Mais ce n'est pas tout. Amodei a ajouté : « il faut commencer à penser à l'écosystème plus large, aux compensations carbone pour les grands centres de données, et c'est ce que nous étudions également ». Cela suggère que les coûts de formation des modèles pourraient à l'avenir prendre en compte les dépenses liées aux efforts de compensation des émissions de dioxyde de carbone. L'IA est très vorace en énergie, tant pendant la formation que lors de l'inférence des modèles. La puissance de calcul nécessaire à l'IA contribue à une consommation d'énergie importante et à des émissions de dioxyde de carbone à grande échelle.
En 2022, des chercheurs du Royaume-Uni, des États-Unis, d'Allemagne et d'Espagne ont constaté que, après l'essor de l'apprentissage profond au début des années 2010, la puissance de calcul nécessaire pour former les nouveaux modèles les plus performants a doublé environ tous les six mois. Selon Jaime Sevilla, directeur d'Epoch AI et auteur principal de l'article, la trajectoire s'est maintenue depuis lors, le coût de la formation triplant environ chaque année. Elle a également déclaré que la multiplication par 4 des besoins en calcul est compensée par une augmentation de 1,3 fois de l'efficacité.
« C'est toujours une ligne droite et elle continue à pointer vers le haut », a ajouté Sevilla. Selon les analystes, si cette tendance se poursuit, le coût de la formation d'un modèle par rapport aux capacités acquises deviendra à un moment donné trop élevé pour être supporté par une entreprise. Par exemple, GPT-3 était plus précis que GPT-2, au point qu'il a pu alimenter le générateur de code GitHub Copilot. GPT-3.5, renforcé par des processus qui nécessitaient à nouveau une formation et des ressources informatiques supplémentaires, était suffisamment convaincant pour servir de base à la première version de ChatGPT.
Les difficultés liées à l'accès aux données pourraient augmenter les coûts de la formation
L'un des facteurs pouvant être un frein à l'évolution des capacités des modèles est la disponibilité des données pour la formation. Heim souligne qu'il existe plusieurs moyens pour contourner ce problème. (Par exemple, en s'entraînant sur un plus grand nombre de types de données et en montrant plusieurs fois les mêmes données aux modèles.) Les poursuites pour violation de droits d'auteur pourraient jouer un rôle dans l'équation, si elles empêchent les entreprises de s'emparer de toutes les données qu'elles peuvent trouver en ligne. Mais même si cela se produit, il y a toujours la possibilité d'utiliser des données synthétiques.
Ces données synthétiques comprennent, entre autres, des données vidéo générées par les moteurs de jeu Unity ou Unreal. D'autres proposent également d'utiliser des données générées par les modèles d'IA. En outre, il est probable que les entreprises accorderont de plus...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.