IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles de langages coûtent 10 fois plus cher à développer dans certaines langues que dans d'autres
D'après l'analyse d'une chercheuse en IA

Le , par Stéphane le calme

1PARTAGES

4  0 
Les modèles de langage sont des systèmes informatiques capables de générer ou de comprendre du texte naturel. Ils sont utilisés pour de nombreuses applications, comme la recherche, la traduction, la rédaction ou le dialogue. Mais Yennie Jun, ingénieure en machine learning et chercheuse en AI, a démontré que tous les modèles de langage ne se valent pas : selon la langue qu’ils traitent, ils peuvent avoir des performances et des coûts très différents.

Les modèles de langage sont des outils puissants et prometteurs pour traiter le texte naturel, mais ils ont aussi un coût qui varie selon la langue qu’ils manipulent. Ce coût dépend de plusieurs facteurs, comme la taille du modèle, la qualité des données ou le niveau de spécialisation. Il a des conséquences importantes pour les développeurs, les utilisateurs et l’environnement.

Le concept de tokenisation

La tokenisation est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à découper un texte ou une autre modalité en unités plus petites et plus gérables, appelées tokens. Par exemple, un texte peut être découpé en mots, en syllabes ou en caractères. Une image peut être découpée en pixels ou en régions. Un son peut être découpé en fréquences ou en phonèmes.

La tokenisation permet de réduire la complexité et la taille des données à traiter par les modèles d’IA, mais elle présente aussi des inconvénients. Tout d’abord, elle nécessite de choisir un vocabulaire de tokens adapté au domaine et à la langue des données, ce qui peut être coûteux et fastidieux. Ensuite, elle introduit une perte d’information et une ambiguïté dans la représentation des données, car certains tokens peuvent avoir plusieurs sens ou ne pas correspondre exactement aux unités sémantiques des données. Enfin, elle limite la capacité des modèles à traiter des séquences longues et variées, car le nombre de tokens augmente avec la longueur et la diversité des données.

Pour être plus clair, les grands modèles de langage tels que ChatGPT traitent et génèrent des séquences de texte en divisant d'abord le texte en unités plus petites appelées tokens (ou jetons). Dans l'image ci-dessous, chaque bloc coloré représente un token unique. Des mots courts ou courants tels que “you”, “say”, “loud” et “always” sont leurs propres token, tandis que des mots plus longs ou moins courants tels que “atrocious”, “precocious”, and “supercalifragilisticexpialidocious” sont divisés en sous-mots plus petits.


Ce processus de tokenisation n'est pas uniforme d'une langue à l'autre, ce qui entraîne des disparités dans le nombre de jetons produits pour des expressions équivalentes dans différentes langues. Par exemple, une phrase en birman ou en amharique peut nécessiter 10 fois plus de jetons qu'un message similaire en anglais.

Dans son billet, Yennie Jun a exploré le processus de tokenisation et s'est intéressé à sa variation d'une langue à l'autre. Elle a notamment :
  • analysé des distributions de tokens dans un ensemble de données parallèles de messages courts qui ont été traduits dans 52 langues différentes ;
  • noté que certaines langues, comme l'arménien ou le birman, nécessitent 9 à 10 fois plus de tokens que l'anglais pour tokeniser des messages comparables ;
  • noté l'impact de cette disparité linguistique, rappelant au passage que ce phénomène n'est pas nouveau pour l'IA et précisant que cela correspond à ce que nous observons dans le code Morse et les polices informatiques.

Certaines langues se segmentent systématiquement en longueurs plus longues

Pour chaque langue, Yennie a calculé la longueur médiane du token pour tous les textes de l'ensemble de données. Le tableau suivant compare un sous-ensemble de langues. Les textes anglais avaient la plus petite longueur médiane de 7 tokens et les textes birmans avaient la plus grande longueur médiane de 72 jetons. Les langues romanes telles que l'espagnol, le français et le portugais avaient tendance à donner un nombre similaire de token à l'anglais.


Comme l'anglais avait la longueur de jeton médiane la plus courte, Yennie a calculé le rapport entre la longueur médiane du token des autres langues et celle de l'anglais. Des langues telles que l'hindi et le bengali (plus de 800 millions de personnes parlent l'une ou l'autre de ces langues) ont donné une longueur symbolique médiane d'environ 5 fois celle de l'anglais. Le ratio est 9 fois celui de l'anglais pour l'arménien et plus de 10 fois celui de l'anglais pour le birman. En d'autres termes, pour exprimer le même sentiment, certaines langues nécessitent jusqu'à 10 fois plus de token. Le français quant à lui nécessitait 1,5 fois le nombre de token en anglais pour exprimer le même sentiment.


Quels sont les facteurs qui influencent le coût des modèles de langage ?

Le coût d’un modèle de langage dépend de plusieurs facteurs, dont les principaux sont :
  • La taille du modèle : plus un modèle a de paramètres, c’est-à-dire de variables internes qui déterminent son comportement, plus il est complexe et puissant, mais aussi plus il consomme de ressources informatiques pour être entraîné et déployé.
  • La qualité des données : pour apprendre à produire ou à analyser du texte, un modèle de langage a besoin de données d’entraînement, c’est-à-dire de textes étiquetés ou non qui lui servent d’exemples. La qualité de ces données influe sur la qualité du modèle : plus les données sont diverses, représentatives et sans erreur, plus le modèle sera performant et robuste. Or, certaines langues disposent de plus de données que d’autres, notamment celles qui sont parlées par un grand nombre de personnes ou qui sont présentes sur le web. Par exemple, l’anglais bénéficie d’un corpus de données très riche et varié, tandis que des langues moins répandues ou moins numérisées comme le basque ou le tibétain ont moins de données disponibles.
  • Le niveau de spécialisation : un modèle de langage peut être généraliste ou spécialisé dans un domaine particulier, comme la médecine, le droit ou la finance. Un modèle spécialisé a l’avantage d’être plus précis et pertinent dans son domaine, mais il nécessite aussi des données plus spécifiques et plus rares, ce qui augmente son coût. Par exemple, un modèle de langage médical en français aura besoin de données issues de publications scientifiques, de rapports médicaux ou de dialogues entre médecins et patients en français, ce qui est moins facile à trouver qu’un corpus généraliste en français.

Il n’existe pas de mesure unique et universelle du coût des modèles de langage, car il dépend du contexte et du but recherché. Néanmoins, on peut distinguer deux types principaux de coût :
  • Le coût d’entraînement : il correspond au coût nécessaire pour créer un modèle à partir de données. Il inclut le coût du matériel informatique (processeurs, mémoire, stockage), du logiciel (frameworks, bibliothèques), de l’électricité et du temps humain (ingénieurs, chercheurs, annotateurs). Le coût d’entraînement peut être très élevé pour les modèles les plus grands et les plus sophistiqués
  • Le coût d’inférence : il correspond au coût nécessaire pour utiliser un modèle existant pour générer ou comprendre du texte. Il inclut le coût du matériel informatique (serveurs, cloud), du logiciel (APIs, services), de l’électricité et du temps humain (utilisateurs, clients). Le coût d’inférence peut varier selon la fréquence et la complexité des requêtes.

Le coût des modèles de langage a des implications importantes pour les acteurs qui les développent ou les utilisent, ainsi que pour les utilisateurs finaux qui en bénéficient. On peut citer quelques exemples :
  • Le coût d’entraînement peut être un frein à l’innovation et à la diversité linguistique : seuls les acteurs disposant de moyens financiers importants peuvent se permettre d’entraîner des modèles de pointe sur des langues peu dotées en données. Cela peut créer un déséquilibre entre les langues dominantes et les langues minoritaires, et renforcer les biais culturels ou idéologiques des modèles.
  • Le coût d’inférence peut être un facteur de compétitivité et de rentabilité : les acteurs qui proposent des services basés sur des modèles de langage doivent trouver le bon équilibre entre la qualité et le coût de leurs offres. Cela peut les inciter à optimiser leurs modèles, à choisir des langues plus rentables ou à répercuter le coût sur les utilisateurs.
  • Le coût des modèles de langage peut avoir un impact environnemental : les modèles de langage consomment beaucoup d’énergie, ce qui contribue au réchauffement climatique. Selon une étude menée par l’Université du Massachusetts en 2019 , entraîner un modèle de langage comme BERT équivaut à émettre environ 284 tonnes de CO2, soit l’équivalent de la consommation annuelle de 5 voitures américaines. Cela pose la question de la responsabilité écologique des acteurs du domaine.

Conclusion

Les disparités linguistiques dans la tokenisation révèlent un problème urgent en IA*: l'équité et l'inclusivité. Comme des modèles comme ChatGPT sont principalement formés à l'anglais, les langues de script non indo-européennes et non latines sont confrontées à des obstacles en raison des coûts de tokenisation prohibitifs.

Aussi, tous les modèles de langage ne se valent pas : selon la langue ciblée, le coût peut varier considérablement. Par exemple, le français est une langue moins représentée que l’anglais sur le web et dans les bases de données. Il existe donc moins de données disponibles pour entraîner des modèles de langage en français. De plus, le français est une langue plus riche et plus variée que l’anglais sur le plan morphologique et syntaxique. Il faut donc des modèles plus grands et plus complexes pour couvrir toutes les nuances du français.

Yennie Jun estime qu'il est « essentiel de s'attaquer à ces disparités pour assurer un avenir plus inclusif et accessible à l'intelligence artificielle, qui profitera en fin de compte aux diverses communautés linguistiques du monde entier ». Elle propose un tableau de bord exploratoire qu'elle a réalisé, disponible sur les espaces HuggingFace. Une fois dessus, vous pouvez comparer les longueurs de jeton pour différentes langues et pour différents tokenizers (ce qui n'a pas été exploré dans son article, mais qu'elle recommande aux curieux).

Essayez vous-même

Source : Yennie Jun

Et vous ?

Avez-vous déjà utilisé un modèle de langage dans votre vie quotidienne ou professionnelle ? Si oui, dans quel contexte et avec quel résultat ?
Quelle est la langue que vous préférez utiliser pour interagir avec un modèle de langage ? Pourquoi ?
Êtes-vous surpris par les résultats comparatifs de la chercheuse entre le français et l'anglais ? Que pensez-vous de la place du français ?
Quels sont les risques ou les opportunités que vous percevez liés à l’utilisation des modèles de langage dans différents domaines (éducation, santé, divertissement, etc.) ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de vVDB.fr
Membre régulier https://www.developpez.com
Le 25/01/2025 à 7:53
il n'y a aucune intelligence dans ces algorithmes probabilistes. C'est de la connaissance encyclopédique.

Par quel miracle ce gugus va-t-il supprimer les biais qui sont intrinsèques au système probabiliste ? Il parle d'un niveau doctorant, donc scientifiquement irréfutable.

L'intelligence ce n'est pas ce qui est le plus consensuel, attendu, probable, et surtout pas la moyenne !

A ce tarif, la terre serait toujours plate et vous seriez des hérétiques...

Le système sera intelligent lorsqu'il se posera la question de la cohérence des informations à chaque fois qu'on lui ingurgite une nouvelle donnée. l'IA ne doit pas bâtir une réponse sur des croyances. Les réponses ne peuvent être magiques comme aujourd'hui mais obligatoirement sourcées.

Que doit répondre une IA avec les données de l'an 800 à Charlemagne quand il lui pose la question : la terre, est-elle plate ?
- elle est bien plate (dogme de l'église)
- impossible de confirmer qu'elle est plate (hérétique).
- Ératosthène a montré qu'elle était sphérique (limite du blasphème pour Charlemagne)

Vous reprenez un jeu de questions aléatoires, avec une IA Afghane (uniquement alimentée avec des écritures saintes) ne devrait-elle pas donner les mêmes réponses qu'une IA athée ?

Quand Trump pose une question à une IA et que LA réponse ne lui convient pas : you're fired ? Et bien non, c'est pas comme ça la vrai vie pépère !

Nous sommes à des années lumières de l'intelligence supérieure promise par les Altman et consorts qui survendent de la proba pour de l'intelligence. J'ose : chatGPT est un simple Marmiton V2, une base de recettes.
3  0 
Avatar de Flupke68
Nouveau membre du Club https://www.developpez.com
Le 23/01/2025 à 15:51
J'espère que l'IA fera l'humanité arriver à se dire qu'il y a quelque chose qui nous dépasse,
et que tenter d'approcher ce qui nous dépasse nous fera incarner le mythe d'Icare.
1  0 
Avatar de cobalt3d
Membre régulier https://www.developpez.com
Le 27/01/2025 à 4:21
Le mieux qu'on puisse attendre, c'est que l'Ia nous plonge dans un âge de stagnation et d'immobilisme. Elle ne fait que simuler l'intelligence. Sans modèle, elle n'invente rien. Elle n'inventera jamais rien. Pire, si la moindre originalité devait apparaître quelque part, c'est qu'elle l'aura volé dans une publication obscure qui aura échappé au plus grand nombre. Même cette situation est peu probable. L'enthousiasme et l'optimisme actuels ne sont destinés qu'à gonfler la bulle spéculative qui l'entoure.
1  0 
Avatar de Anselme45
Membre extrêmement actif https://www.developpez.com
Le 28/06/2024 à 14:18
Ouaaaaaaaaaaaaaaaaaaaah! Une intelligence de niveau "universitaire"?!?!?

Pour avoir un cursus universitaire, je peux vous confirmer que chez les universitaires et les ingénieurs sortis diplômés des plus prestigieuses hautes écoles, il y a la même proportion de cons et de mecs bas du plafond que dans tous les autres métiers!!!

Une intelligence de niveau "universitaire" ne veut strictement rien dire, mais bon le PDG en question est aussi déconnecté du monde universitaire que du monde réel; C'est le même genre de mec qui a dit il y a quelques jours que l'humain allait être remplacé par l'IA dans tous les métiers... Y compris votre coiffeur qui vous fait une petite coupe estivale ou l'aide infirmière qui nettoie les déjections (pour ne pas écrire la merde!) des patients grabataires qui bien que devant garder le lit ont toujours des fonctions à assouvir???
0  0 
Avatar de dee phoenix
Membre du Club https://www.developpez.com
Le 23/01/2025 à 15:49
La boucle sera bouclée quand l'I.A n'aura plus besoin d'interventions humaine pour évoluer
0  0 
Avatar de dee phoenix
Membre du Club https://www.developpez.com
Le 23/01/2025 à 18:03
Citation Envoyé par Flupke68 Voir le message
J'espère que l'IA fera l'humanité arriver à se dire qu'il y a quelque chose qui nous dépasse,
et que tenter d'approcher ce qui nous dépasse nous fera incarner le mythe d'Icare.
L'inconscient collectif doit être blindé contre toutes formes de manipulations hégémoniques négatives
0  0 
Avatar de Fluxgraveon
Membre actif https://www.developpez.com
Le 27/01/2025 à 14:49
Le mieux qu'on puisse attendre, c'est que l'Ia nous plonge dans un âge de stagnation et d'immobilisme. Elle ne fait que simuler l'intelligence. Sans modèle, elle n'invente rien. Elle n'inventera jamais rien. Pire, si la moindre originalité devait apparaître quelque part, c'est qu'elle l'aura volé dans une publication obscure qui aura échappé au plus grand nombre. Même cette situation est peu probable. L'enthousiasme et l'optimisme actuels ne sont destinés qu'à gonfler la bulle spéculative qui l'entoure.
Bien évidemment que cela s'inscrit dans l'économie spéculative, qui tend à prendre toute la place et tenter un reset pour ... effacer la dette. Tout aussi évidemment cela profiterait à ? Ceux qui sont le plus endettés.
L'IA est un outil, même avec un modèle (un mot pour remplacer simulation), cela n'invente rien car c'est du brassage de données : un peu comme si vous vouliez créer un écosystème en brassant des sédiments, c'est difficile sans y injecter quelque chose (de vivant). Ce quelque chose, c'est nous-mêmes (n'avons nous pas créé cet outil ?).
C'est quand même curieux cette discussion à propos d'un outil : il est probable (de mon point de vue, hein) que cela est dû à son haut niveau d'abstraction (son côté "immatériel" ?).
L'IA est "créative" lorsque nous l'utilisons, en relation pour ainsi dire et cela fait bouger : c'était déjà le cas avec les silex
Une base de recettes, c'est bien, un génome aussi.
Cela dit il y a bien d'autres "choses", une fois sorti du labo.
Peut-être même une IA, tiens.
0  0 
Avatar de Showb
Nouveau Candidat au Club https://www.developpez.com
Le 25/01/2025 à 14:19
Citation Envoyé par vVDB.fr Voir le message
il n'y a aucune intelligence dans ces algorithmes probabilistes. C'est de la connaissance encyclopédique.

Par quel miracle ce gugus va-t-il supprimer les biais qui sont intrinsèques au système probabiliste ? Il parle d'un niveau doctorant, donc scientifiquement irréfutable.

L'intelligence ce n'est pas ce qui est le plus consensuel, attendu, probable, et surtout pas la moyenne !

A ce tarif, la terre serait toujours plate et vous seriez des hérétiques...

Le système sera intelligent lorsqu'il se posera la question de la cohérence des informations à chaque fois qu'on lui ingurgite une nouvelle donnée. l'IA ne doit pas bâtir une réponse sur des croyances. Les réponses ne peuvent être magiques comme aujourd'hui mais obligatoirement sourcées.

Que doit répondre une IA avec les données de l'an 800 à Charlemagne quand il lui pose la question : la terre, est-elle plate ?
- elle est bien plate (dogme de l'église)
- impossible de confirmer qu'elle est plate (hérétique).
- Ératosthène a montré qu'elle était sphérique (limite du blasphème pour Charlemagne)

Vous reprenez un jeu de questions aléatoires, avec une IA Afghane (uniquement alimentée avec des écritures saintes) ne devrait-elle pas donner les mêmes réponses qu'une IA athée ?

Quand Trump pose une question à une IA et que LA réponse ne lui convient pas : you're fired ? Et bien non, c'est pas comme ça la vrai vie pépère !

Nous sommes à des années lumières de l'intelligence supérieure promise par les Altman et consorts qui survendent de la proba pour de l'intelligence. J'ose : chatGPT est un simple Marmiton V2, une base de recettes.

Intéressant quand même, comme un post destiné à démontrer les supposées limites de l'IA et à critiquer vertement les déclarations d'un des hommes les mieux renseignés sur ce sujet sur terre, arrive en réalité à démontrer les limites du raisonnement humain ou en tout cas de certains humains. Le plus important je pense pour commencer est de démonter les multiples erreurs de ce poste.

Sur le plan historique, Charlemagne a priori pensait que la Terre était ronde comme la majorité de ses contemporains. Le choix de Charlemagne est d'ailleurs assez étonnant, car c'est justement une statue de Charlemagne dont l'on se sert souvent pour montrer cela. Une statue bien connue de Charlemagne arborant un globe dans la main censé représenter son pouvoir sur la Terre.

Ensuite l'église de cette époque a priori soutenait l'idée selon laquelle la terre était ronde, l'église n'était pas là pour s'occuper de sciences, mais étant donné que rien dans la Bible ne va contre cette idée (certain versets peuvent même être interprété comme soutenant cette idée), c'est une question sur laquelle elle n'a pas eu de vraie position officielle. Cependant, il est possible de dire qu'elle était plutôt favorable à cette idée, étant donné que beaucoup de grands hommes d'église, dont les pères de l'église, soutenaient la rotondité de la terre. Ce à quoi vous faites allusion, ce sont des procès ultérieurs, et je vous invite à vous renseigner un petit peu plus sur ces affaires, car c'était loin d'être un simple problème scientifique. Mais l'avis des historiens sur le sujet, c'est que l'Église considérait que la terre était ronde durant le Moyen-Âge.

Comble de l'ironie, lorsque je demande à Copilot qui, il me semble, transmet les réponses à partir d'un moteur issu des GPT d'OpenAI, il me répond que les hommes du Moyen-Âge pensaient que la Terre était ronde et que la croyance selon laquelle les personnes du Moyen-Âge pensaient que la Terre était plate, bien que très répandue à notre époque, est totalement fausse et vient des différents mensonges de la Renaissance, entre autres de Voltaire. Comme quoi, l'approche probabiliste, apparemment lorsqu'elle est bien gérée, peut quand même permettre de générer une réponse qui va à contre-courant de l'avis général en se basant sur des sources sérieuses, ce qu'apparemment votre esprit humain n'a en l'occurrence pas réussi à faire.

Ensuite, la dernière phrase sur l'IA afghane et je ne vois pas vraiment pourquoi une telle obsession sur les croyances religieuses alors qu'on parle d'intelligence artificielle, mais en réalité on peut élargir la question et se demander si ce même jeu de questions aléatoire posé à un Afghan et un Américain auront vraiment les mêmes réponses. On est le produit de son environnement, il est tout à fait normal que les IA puissent subir les mêmes biais. Encore une fois vous êtes la preuve que la légende d'un moyen Âge obscure qui est un pur produit de notre roman national a encore plus d'effets sur les humains que les IAs.

Sur un plan fluide technique, effectivement, les IA transmettent des réponses qui sont avant tout probabilistes, puisqu'elles réfléchissent avec une méthode qui, vous avez raison, utilise une moyenne, quand a priori l'esprit humain ne procède pas de la même façon, et cela donne, vous avez encore raison, de célèbres lacunes de l'IA qui sur certaines questions n'arrivent pas à sortir de ces biais probabilistes, par exemple, il est très difficile de gérer une montre qui n'indique pas 10h10, car l'immense majorité des photos que l'IA trouve avec des montres indiquent 10h10 et qu'elle n'est visiblement pas capable de comprendre qu'une montre peut indiquer autre chose. Mais au-delà de certains cas très précis comme ceux-là, l'approche probabiliste, bien qu'elle nécessite d'être prises en compte, ne pose pas de problème majeur. En l'occurrence, les dernières IA que l'on a sont des groupes d'IA avec tout un tas de sous-IA qui sont capables de se corriger entre elles et de conduire une réflexion avec une IA majeure qui est capable de décomposer le problème, par exemple.

En réalité, dans un futur proche, si l'IA est capable d'appeler des IA spécialisées / logiciels dans tout un tas de domaines, de comparer les réponses et d'évaluer les résultats, elle sera capable de mener des raisonnements complexes. La question de savoir si l'IA pourrait vraiment générer des résultats scientifiques nouveaux grâce à uniquement sa compréhension est toujours ouverte à ma connaissance. Pour l'instant, ce n'est pas le cas. Mais par contre, il est très clair que les IA aujourd'hui arriveront à remplacer la plupart des professionnels, et que l'accès à une puissance de calcul très importante débloque malgré tout de nombreux domaines de la recherche, je pense à AlphaMind par exemple. D'un point de vue plus terre à terre, et pour sortir des grands discours et raisonnements sur ce sujet

Je suis développeur et actuellement avec une IA comme Bolt ou Windsurf qui sont connectés à AntropicAI et utilisent des cascades d'IA c'est complètement hallucinant ce qu'on arrive à générer. J'ai par exemple généré une application d'édition de Markdown avec prévisualisation et stockage sur un serveur en ligne. L'interface est magnifique, bien meilleure que ce que j'arriverai à faire. Je suis plutôt back-end, mais en réalité même pour un dev front-end, ça aurait pris des heures. Là j'ai réussi à le générer en dix minutes et pour deux euros. Donc peu importe la réponse à la question "l'IA est-elle capable de réfléchir par elle-même", à laquelle vous donnez une réponse qui est de toute manière bien trop précipitée... Même si cela n'était pas le cas, l'IA aujourd'hui est en capacité de remplacer un bon nombre de professionnels, y compris des docteurs (AH oui et doctorant != scientifiquement irréfutable, ça c'est du grand n’importe quoi. D'ailleurs les systèmes d'indexations ressemblent à s'y méprendre au fonctionnement de l'IA). Et donc son apport doit absolument être pris en compte. Le PDG d'Antropic a tout à fait raison.
0  3