Les grands modèles de langage sont en état d'ébriété, selon Mattsi Jansky, développeur de logiciels, il présente l'envers du decor des LLM,

Dans un billet de blog

Le 27 février 2024 à 18:33, par Bruno

141PARTAGES

Mattsi Jansky, professionnel en informatique, examine les préoccupations liées à l'abus du terme "IA" dans le contexte des grands modèles de langage (LLM) comme ChatGPT. Il met en avant les complications issues de la publicité exagérée et des investissements massifs dans ces modèles. En se référant à l'époque d'Alan Turing, Jansky souligne que malgré les progrès de l'IA, les LLM ne sont pas de véritables intelligences artificielles, mais plutôt des algorithmes d'apprentissage automatique qui génèrent du texte humain sans avoir de capacité de raisonnement autonome.

Il explore les limites intrinsèques des LLM, mettant en évidence les défis liés à la correction des erreurs de comportement. Il émet également des avertissements concernant les implications d'une utilisation massive de ces modèles, soulignant l'émergence de résultats inattendus et critiquant les investissements souvent disproportionnés dans des entreprises prétendant exploiter l'IA.

« La plupart des organisations que j'ai vues investir dans des fantasmes de LLM ont une chose en commun : leur produit présente des tonnes de problèmes auxquels il serait préférable de consacrer son temps », déclareMattsi Jansky. Lorsque Turing a publié Computing Machinery and Intelligence, il a décrit une « machine à penser » capable de raisonner comme les humains. Il a longuement argumenté sur le fait qu'il était possible de créer des machines pensantes : Rien de ce qui est connu en physique, en informatique, en mathématiques ou dans tout autre domaine ne permet d'écarter cette possibilité. Il a répété tous les arguments connus contre les machines à penser, en les déconstruisant et en les défaisant tous. Lors de la conférence de Dartmouth en 1956, l'idée d'une machine pensante est devenue l'intelligence artificielle. C'est là que nous, les humains, avons pris nos premières mesures sérieuses et organisées pour en créer une.

Depuis lors, le domaine de l'IA a généré un nombre considérable de découvertes remarquables : Recherche, représentation des connaissances, inférence dans la logique du premier ordre, raisonnement probabiliste, systèmes experts, planification dynamique et robotique, systèmes multi-agents, apprentissage automatique, reconnaissance vocale, traitement du langage naturel, traduction automatique, reconnaissance d'images, etc. Mattsi Jansky classe ces technologies en trois grandes catégories : le connexionnisme, le symbolisme et l'actionnisme.

Un grand modèle de langage est un type de programme d'intelligence artificielle (IA ) capable de reconnaître et de générer du texte, entre autres tâches. Les LLM sont formés sur d'énormes ensembles de données, d'où leur nom de « grands modèles ». Les LLM s'appuient sur l'apprentissage automatique: plus précisément, sur un type de réseau neuronal appelé modèle de transformateur.

En termes plus simples, un LLM est un programme informatique qui a reçu suffisamment d'exemples pour être capable de reconnaître et d'interpréter le langage humain ou d'autres types de données complexes. De nombreux LLM sont formés à partir de données recueillies sur l'internet - des milliers ou des millions de gigaoctets de texte. Mais la qualité des échantillons a une incidence sur la capacité des LLM à apprendre le langage naturel, de sorte que les programmeurs d'un LLM peuvent utiliser un ensemble de données mieux calibré.

Les LLM utilisent un type d'apprentissage automatique appelé apprentissage profond afin de comprendre comment les caractères, les mots et les phrases fonctionnent ensemble. L'apprentissage profond implique l'analyse probabiliste de données non structurées, ce qui permet au modèle d'apprentissage profond de reconnaître les distinctions entre les éléments de contenu sans intervention humaine.

Les LLM sont ensuite formés par tuning : ils sont ajustés avec précision ou avec des invites à la tâche particulière que le programmeur veut leur confier, comme l'interprétation de questions et la génération de réponses, ou la traduction d'un texte d'une langue à une autre.

Dans le débat public, cette nuance est éclipsée par les LLM, la seule réalisation du domaine de l'IA dont tout le monde parle ces derniers temps. Un LLM est un algorithme d'apprentissage automatique capable de générer un texte ressemblant à s'y méprendre à un texte humain. Il est entraîné sur d'énormes quantités de texte en utilisant des quantités stupéfiantes de puissance de traitement, afin de créer un modèle probabiliste qui peut prédire en grande partie ce qu'une personne humaine réelle pourrait dire en réponse à une entrée donnée. Pour ce faire, des réseaux neuronaux sont créés, mais ne vous y trompez pas : ces réseaux neuronaux n'ont rien à voir avec les cerveaux des mammifères. Ils ne sont pas destinés à reproduire la façon dont les humains pensent, mais plutôt à prédire ce qu'un humain pourrait dire en réponse à une information donnée.

Les réseaux neuronaux sont impliqués dans le mécanisme, mais pas dans la simulation d'une pensée humaine. Les statistiques et la théorie des probabilités sont les principaux moyens par lesquels tout cela fonctionne. En d'autres termes, le modèle devine la combinaison de lettres que quelqu'un d'autre pourrait écrire en réponse à votre demande.

Beren Millidge, responsable de la recherche IA chez Conjecture, présent le terme de "confabulation" comme étant plus adapté que "hallucination" pour décrire le comportement des grands modèles de langage lorsqu'ils génèrent des informations fausses mais plausibles. Il compare la confabulation des LLM à celle des humains souffrant de lésions cérébrales, lesquels inventent des histoires en réponse à des questions qu'ils ne peuvent pas traiter, soulignant que les LLM agissent comme des humains amnésiques et sans cohérence centrale. Les LLM sont des algorithmes d'apprentissage profond qui effectuent diverses tâches de traitement du langage naturel (NLP) en utilisant des modèles de transformation et des ensembles de données massifs.

Millidge explique que les LLM, également appelés réseaux neuronaux, fonctionnent avec des couches de nœuds similaires aux neurones humains. Ces modèles sont pré-entraînés et affinés pour résoudre des problèmes de classification de texte, de réponse à des questions, de résumé de documents, et plus encore. Il souligne que les LLM ont de nombreux paramètres, constituant leur banque de connaissances. Millidge...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :