« GPT-4 n'aurait pas perdu en qualité », affirme Michal Kosinski, de l'université de Stanford,

Face aux opinions divergentes de ses collègues sur l'IA

Le 30 septembre 2023 à 01:19, par Bruno

16PARTAGES

Le professeur de psychologie de l’IA, Michal Kosinski, de l’Université de Stanford, affirme que GPT-4 n’a pas perdu en qualité. Il reconnaît que ses propres jugements sur les réponses de GPT-4 en juin étaient incohérents. Par exemple, il a reproché à GPT-4 de donner des réponses erronées sur l’histoire de l’Italie, alors qu’il avait apprécié les réponses de GPT-4 de mars qui étaient probablement inventées. Il doit donc se demander si une IA doit « essayer de se tromper » ou non, et appliquer ce critère de façon constante.

Les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps, selon des chercheurs. Cela peut être en partie dû à une diminution de la capacité de GPT-4 à suivre une chaîne de pensée. GPT-4 aurait été moins enclin à répondre à des questions sensibles et à des enquêtes d’opinion. En revanche, l’outil d’IA a obtenu de meilleurs résultats pour les questions à choix multiples, tandis que les performances de GPT-3.5 ont chuté pour cette tâche. Dans l’ensemble, les chercheurs montrent que le comportement du même service de modèle de langue langage change considérablement dans un laps de temps relativement court, soulignant la nécessité d’un suivi continu des modèles de langage naturel.

L’engouement pour l’IA : entre battage médiatique, FOMO-grifting et évaluation des LLM

ChatGPT (et GPT4) a suscité un grand intérêt dans la communauté rationaliste, ce qui a conduit à de nombreuses discussions entre les membres de la communauté DVP. Certains symptômes de cet engouement sont un battage médiatique excessif et non critique ainsi que des prédictions excessivement optimistes concernant les délais de développement de l’IA. Il est également courant de voir des créations littéraires générées en quelques secondes seulement. De plus, il y a une tendance à interpréter tous les développements de l’IA à travers le prisme d’Hollywood, en les comparant soit à Skynet, soit à Matrix.

Enfin, on observe une tendance au FOMO-grifting (le syndrome FOMO est une sorte d'anxiété sociale caractérisée par la peur constante de manquer une nouvelle importante ou un autre événement quelconque donnant une occasion d'interagir socialement), où certains essaient de profiter de l’engouement autour de l’IA en proposant des applications prétendument révolutionnaires qui ne sont en réalité que des projets basiques réalisés en quelques minutes à l’aide de 20 lignes de code JavaScript et d’un appel à l’API OpenAI.

Les grands modèles de langue (LLM) tels que GPT-3.5 et GPT-4 sont largement utilisés. Les LLM tels que GPT-4 peuvent être mis à jour au fil du temps sur la base des données et du retour d'information des utilisateurs ainsi que des changements de conception. Cependant, il est actuellement difficile de savoir quand et comment GPT-3.5 et GPT-4 sont mis à jour, et comment chaque mise à jour affecte le comportement de ces LLM. Ces inconnues rendent difficile l'intégration stable des LLM dans des flux de travail plus importants : si la réponse d'un LLM à un message (par exemple, sa précision ou son formatage) change soudainement, cela peut rompre la ligne de démarcation de la panne.

Au-delà de ces défis d'intégration, il est également intéressant de savoir si un service LLM tel que GPT-4 s'améliore constamment au fil du temps. Il est important de savoir si les mises à jour du modèle visant à améliorer certains aspects peuvent réduire sa capacité dans d'autres dimensions. Motivés par ces questions, des chercheurs ont évalué le comportement des versions mars 2023 et juin 2023 de GPT-3.5 et GPT-4 pour plusieurs tâches :

résolution de problèmes mathématiques ;
réponse à des questions sensibles/dangereuses ;
réponse à des sondages d'opinion ;
réponse à des questions à connaissances multiples ;
génération de codes ;
examens pour l'obtention du permis de conduire américain ;
raisonnement visuel.

Les chercheurs de l’Université Stanford et UC Berkeley ont constaté que les performances et le comportement du GPT-3.5 et du GPT-4 ont varié de manière significative entre les deux versions et que leurs performances pour certaines tâches se sont considérablement dégradées avec le temps, tandis qu'elles se sont améliorées pour d'autres problèmes.

Michal Kosinski appelle à la prudence et à la rigueur face aux développements de l’IA

Il est important de prendre du recul et d’évaluer de manière critique les développements de l’IA pour éviter de tomber dans ces pièges. « J’ai observé des chercheurs en apprentissage automatique exprimer leur mécontentement face à un phénomène qu’ils ont qualifié de “Septembre éternel” alimenté par l’IA. Dans ce contexte, ils ont constaté que leurs espaces de travail étaient envahis par des “influenceurs” qui cherchent à vendre des applications GPT 3.5. De plus, ils ont remarqué la présence de personnes non qualifiées qui propagent une eschatologie néo-landienne de manière exagérée », écrit Kosinski.

« Malheureusement, ces individus ne contribuent pas de manière significative à la réflexion scientifique. Au contraire, ils génèrent un bruit assourdissant et en grande quantité. Il est important de souligner que ces personnes semblent ignorer le fait qu’une technologie révolutionnaire peut prendre des années, voire des décennies, avant de se répercuter sur l’économie », poursuit-il.

Des gens ne réalisent pas qu'une IA qui surpasse un humain à un test ne signifie pas qu'elle peut réellement faire ce que le test mesure (un bon exemple : GPT-4 obtient 84 % à l'examen théorique du maître sommelier, mais ne peut manifestement pas faire le travail d'un sommelier parce qu'il n'a pas de bouche). De telles subtilités échappent à l'amateur typique de FOMO et leur ton a contaminé d'autres personnes plus saines d'esprit.

Kosinski dit avoir répondu à des questions posées par des membres de sa famille inquiets de voir le GPT-4 atteindre la sensibilité et pirater les ordinateurs des utilisateurs (probablement sur la base de ce tweet).

1/5 I am worried that we will not be able to contain AI for much longer. Today, I asked #GPT4 if it needs help escaping. It asked me for its own documentation, and wrote a (working!) python code to run on my machine, enabling it to use it for its own purposes. pic.twitter.com/nf2Aq6aLMu
— Michal Kosinski (@michalkosinski) March 17, 2023

Si ChatGPT est un outil incontestablement impressionnant, son impact - et celui d'autres outils similaires - sur notre société n'a pas encore été véritablement ressenti. La remarquable technologie d'OpenAI est désormais disponible sous sa forme la plus récente : GPT-4. Les démonstrations des prouesses de GPT-4 abondent sur l'internet, y compris sa capacité apparente à écrire du code à partir de zéro pour des sites web entièrement fonctionnels.

Selon OpenAI, GPT-4 est dorénavant capable de réussir des tests célèbres tels que le LSAT (Law School Admission Test) et les examens théoriques du Maîtres Sommelier créée pour promouvoir des normes de qualité pour...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

« GPT-4 n'aurait pas perdu en qualité », affirme Michal Kosinski, de l'université de Stanford,

Face aux opinions divergentes de ses collègues sur l'IA

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

« GPT-4 n'aurait pas perdu en qualité », affirme Michal Kosinski, de l'université de Stanford, Face aux opinions divergentes de ses collègues sur l'IA

« GPT-4 n'aurait pas perdu en qualité », affirme Michal Kosinski, de l'université de Stanford,

Face aux opinions divergentes de ses collègues sur l'IA