Les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps, selon des chercheurs. Cela peut être en partie dû à une diminution de la capacité de GPT-4 à suivre une chaîne de pensée. GPT-4 aurait été moins enclin à répondre à des questions sensibles et à des enquêtes d’opinion. En revanche, l’outil d’IA a obtenu de meilleurs résultats pour les questions à choix multiples, tandis que les performances de GPT-3.5 ont chuté pour cette tâche. Dans l’ensemble, les chercheurs montrent que le comportement du même service de modèle de langue langage change considérablement dans un laps de temps relativement court, soulignant la nécessité d’un suivi continu des modèles de langage naturel.
L’engouement pour l’IA : entre battage médiatique, FOMO-grifting et évaluation des LLM
ChatGPT (et GPT4) a suscité un grand intérêt dans la communauté rationaliste, ce qui a conduit à de nombreuses discussions entre les membres de la communauté DVP. Certains symptômes de cet engouement sont un battage médiatique excessif et non critique ainsi que des prédictions excessivement optimistes concernant les délais de développement de l’IA. Il est également courant de voir des créations littéraires générées en quelques secondes seulement. De plus, il y a une tendance à interpréter tous les développements de l’IA à travers le prisme d’Hollywood, en les comparant soit à Skynet, soit à Matrix.
Enfin, on observe une tendance au FOMO-grifting (le syndrome FOMO est une sorte d'anxiété sociale caractérisée par la peur constante de manquer une nouvelle importante ou un autre événement quelconque donnant une occasion d'interagir socialement), où certains essaient de profiter de l’engouement autour de l’IA en proposant des applications prétendument révolutionnaires qui ne sont en réalité que des projets basiques réalisés en quelques minutes à l’aide de 20 lignes de code JavaScript et d’un appel à l’API OpenAI.
Les grands modèles de langue (LLM) tels que GPT-3.5 et GPT-4 sont largement utilisés. Les LLM tels que GPT-4 peuvent être mis à jour au fil du temps sur la base des données et du retour d'information des utilisateurs ainsi que des changements de conception. Cependant, il est actuellement difficile de savoir quand et comment GPT-3.5 et GPT-4 sont mis à jour, et comment chaque mise à jour affecte le comportement de ces LLM. Ces inconnues rendent difficile l'intégration stable des LLM dans des flux de travail plus importants : si la réponse d'un LLM à un message (par exemple, sa précision ou son formatage) change soudainement, cela peut rompre la ligne de démarcation de la panne.
Au-delà de ces défis d'intégration, il est également intéressant de savoir si un service LLM tel que GPT-4 s'améliore constamment au fil du temps. Il est important de savoir si les mises à jour du modèle visant à améliorer certains aspects peuvent réduire sa capacité dans d'autres dimensions. Motivés par ces questions, des chercheurs ont évalué le comportement des versions mars 2023 et juin 2023 de GPT-3.5 et GPT-4 pour plusieurs tâches :
- résolution de problèmes mathématiques ;
- réponse à des questions sensibles/dangereuses ;
- réponse à des sondages d'opinion ;
- réponse à des questions à connaissances multiples ;
- génération de codes ;
- examens pour l'obtention du permis de conduire américain ;
- raisonnement visuel.
Les chercheurs de l’Université Stanford et UC Berkeley ont constaté que les performances et le comportement du GPT-3.5 et du GPT-4 ont varié de manière significative entre les deux versions et que leurs performances pour certaines tâches se sont considérablement dégradées avec le temps, tandis qu'elles se sont améliorées pour d'autres problèmes.
Michal Kosinski appelle à la prudence et à la rigueur face aux développements de l’IA
Il est important de prendre du recul et d’évaluer de manière critique les développements de l’IA pour éviter de tomber dans ces pièges. « J’ai observé des chercheurs en apprentissage automatique exprimer leur mécontentement face à un phénomène qu’ils ont qualifié de “Septembre éternel” alimenté par l’IA. Dans ce contexte, ils ont constaté que leurs espaces de travail étaient envahis par des “influenceurs” qui cherchent à vendre des applications GPT 3.5. De plus, ils ont remarqué la présence de personnes non qualifiées qui propagent une eschatologie néo-landienne de manière exagérée », écrit Kosinski.
« Malheureusement, ces individus ne contribuent pas de manière significative à la réflexion scientifique. Au contraire, ils génèrent un bruit assourdissant et en grande quantité. Il est important de souligner que ces personnes semblent ignorer le fait qu’une technologie révolutionnaire peut prendre des années, voire des décennies, avant de se répercuter sur l’économie », poursuit-il.
Des gens ne réalisent pas qu'une IA qui surpasse un humain à un test ne signifie pas qu'elle peut réellement faire ce que le test mesure (un bon exemple : GPT-4 obtient 84 % à l'examen théorique du maître sommelier, mais ne peut manifestement pas faire le travail d'un sommelier parce qu'il n'a pas de bouche). De telles subtilités échappent à l'amateur typique de FOMO et leur ton a contaminé d'autres personnes plus saines d'esprit.
Kosinski dit avoir répondu à des questions posées par des membres de sa famille inquiets de voir le GPT-4 atteindre la sensibilité et pirater les ordinateurs des utilisateurs (probablement sur la base de ce tweet).
1/5 I am worried that we will not be able to contain AI for much longer. Today, I asked #GPT4 if it needs help escaping. It asked me for its own documentation, and wrote a (working!) python code to run on my machine, enabling it to use it for its own purposes. pic.twitter.com/nf2Aq6aLMu
— Michal Kosinski (@michalkosinski) March 17, 2023
Si ChatGPT est un outil incontestablement impressionnant, son impact - et celui d'autres outils similaires - sur notre société n'a pas encore été véritablement ressenti. La remarquable technologie d'OpenAI est désormais disponible sous sa forme la plus récente : GPT-4. Les démonstrations des prouesses de GPT-4 abondent sur l'internet, y compris sa capacité apparente à écrire du code à partir de zéro pour des sites web entièrement fonctionnels.
Selon OpenAI, GPT-4 est dorénavant capable de réussir des tests célèbres tels que le LSAT (Law School Admission Test) et les examens théoriques du Maîtres Sommelier créée pour promouvoir des normes de qualité pour le service des boissons dans les hôtels et les restaurants. La qualification de maître sommelier est l'une des plus hautes récompenses de l'industrie, divisée en examens théoriques et pratiques qui nécessitent de nombreux mois d'études pour être réussis.
Si ChatGPT n'a pas tenté de passer l'épreuve pratique de la qualification, il a en revanche réussi les trois niveaux de l'épreuve théorique. Selon des rapports d’études, l’invention d'OpenAI a obtenu un score impressionnant de 92 % à l'examen d'introduction à la Cour des maîtres sommeliers, de 86 % à l'examen de sommelier certifié et de 77 % à l'examen de sommelier avancé.
« GPT-4 est un grand modèle multimodal (acceptant des images et du texte en entrée, émettant du texte en sortie) qui, bien que moins performant que les humains dans de nombreux scénarios du monde réel, affiche des performances de niveau humain sur divers benchmarks professionnels et académiques », a déclaré OpenAI sur son site web.
GPT-4 a également obtenu un score impressionnant de 163 au LSAT, un score suffisant pour entrer dans l'une des 20 meilleures écoles de droit des États-Unis.
La banque suisse UPS a déclaré que ChatGPT est l'application qui a connu la plus forte croissance de tous les temps, avec 100 millions d'utilisateurs au cours des deux premiers mois qui ont suivi son lancement.
Source : Michal Kosinski's blog post
Et vous ?
Quel est votre avis sur le sujet ? L'analyse de Michal Kosinski est-elle pertinente ?
Quels sont selon vous, les critères objectifs pour évaluer la qualité d’une IA comme GPT-4 ?
Quelles peuvent être les conséquences éthiques et sociales d’une IA qui peut « s’efforcer de se tromper » ?
Quelles sont les limites et les risques d’une IA qui peut inventer des réponses sur des sujets historiques ou factuels ?
Voir aussi :
GPT-4 surpasse les humains dans l'efficacité des pitchs pour les investisseurs et les chefs d'entreprise, 80 % d'entre eux trouvent les pitchs générés par l'IA plus convaincants, selon Clarify Capital
OpenAI annonce la disponibilité générale de son API GPT-4, permettant ainsi aux développeurs d'intégrer la dernière génération de son IA générative dans leurs applications
GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin