IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

« GPT-4 n'aurait pas perdu en qualité », affirme Michal Kosinski, de l'université de Stanford,
Face aux opinions divergentes de ses collègues sur l'IA

Le , par Bruno

5PARTAGES

4  0 
Le professeur de psychologie de l’IA, Michal Kosinski, de l’Université de Stanford, affirme que GPT-4 n’a pas perdu en qualité. Il reconnaît que ses propres jugements sur les réponses de GPT-4 en juin étaient incohérents. Par exemple, il a reproché à GPT-4 de donner des réponses erronées sur l’histoire de l’Italie, alors qu’il avait apprécié les réponses de GPT-4 de mars qui étaient probablement inventées. Il doit donc se demander si une IA doit « essayer de se tromper » ou non, et appliquer ce critère de façon constante.


Les performances et le comportement de GPT-3.5 et GPT-4 peuvent varier considérablement au fil du temps, selon des chercheurs. Cela peut être en partie dû à une diminution de la capacité de GPT-4 à suivre une chaîne de pensée. GPT-4 aurait été moins enclin à répondre à des questions sensibles et à des enquêtes d’opinion. En revanche, l’outil d’IA a obtenu de meilleurs résultats pour les questions à choix multiples, tandis que les performances de GPT-3.5 ont chuté pour cette tâche. Dans l’ensemble, les chercheurs montrent que le comportement du même service de modèle de langue langage change considérablement dans un laps de temps relativement court, soulignant la nécessité d’un suivi continu des modèles de langage naturel.

L’engouement pour l’IA : entre battage médiatique, FOMO-grifting et évaluation des LLM

ChatGPT (et GPT4) a suscité un grand intérêt dans la communauté rationaliste, ce qui a conduit à de nombreuses discussions entre les membres de la communauté DVP. Certains symptômes de cet engouement sont un battage médiatique excessif et non critique ainsi que des prédictions excessivement optimistes concernant les délais de développement de l’IA. Il est également courant de voir des créations littéraires générées en quelques secondes seulement. De plus, il y a une tendance à interpréter tous les développements de l’IA à travers le prisme d’Hollywood, en les comparant soit à Skynet, soit à Matrix.

Enfin, on observe une tendance au FOMO-grifting (le syndrome FOMO est une sorte d'anxiété sociale caractérisée par la peur constante de manquer une nouvelle importante ou un autre événement quelconque donnant une occasion d'interagir socialement), où certains essaient de profiter de l’engouement autour de l’IA en proposant des applications prétendument révolutionnaires qui ne sont en réalité que des projets basiques réalisés en quelques minutes à l’aide de 20 lignes de code JavaScript et d’un appel à l’API OpenAI.

Les grands modèles de langue (LLM) tels que GPT-3.5 et GPT-4 sont largement utilisés. Les LLM tels que GPT-4 peuvent être mis à jour au fil du temps sur la base des données et du retour d'information des utilisateurs ainsi que des changements de conception. Cependant, il est actuellement difficile de savoir quand et comment GPT-3.5 et GPT-4 sont mis à jour, et comment chaque mise à jour affecte le comportement de ces LLM. Ces inconnues rendent difficile l'intégration stable des LLM dans des flux de travail plus importants : si la réponse d'un LLM à un message (par exemple, sa précision ou son formatage) change soudainement, cela peut rompre la ligne de démarcation de la panne.

Au-delà de ces défis d'intégration, il est également intéressant de savoir si un service LLM tel que GPT-4 s'améliore constamment au fil du temps. Il est important de savoir si les mises à jour du modèle visant à améliorer certains aspects peuvent réduire sa capacité dans d'autres dimensions. Motivés par ces questions, des chercheurs ont évalué le comportement des versions mars 2023 et juin 2023 de GPT-3.5 et GPT-4 pour plusieurs tâches :

  • résolution de problèmes mathématiques ;
  • réponse à des questions sensibles/dangereuses ;
  • réponse à des sondages d'opinion ;
  • réponse à des questions à connaissances multiples ;
  • génération de codes ;
  • examens pour l'obtention du permis de conduire américain ;
  • raisonnement visuel.

Les chercheurs de l’Université Stanford et UC Berkeley ont constaté que les performances et le comportement du GPT-3.5 et du GPT-4 ont varié de manière significative entre les deux versions et que leurs performances pour certaines tâches se sont considérablement dégradées avec le temps, tandis qu'elles se sont améliorées pour d'autres problèmes.

Michal Kosinski appelle à la prudence et à la rigueur face aux développements de l’IA

Il est important de prendre du recul et d’évaluer de manière critique les développements de l’IA pour éviter de tomber dans ces pièges. « J’ai observé des chercheurs en apprentissage automatique exprimer leur mécontentement face à un phénomène qu’ils ont qualifié de “Septembre éternel” alimenté par l’IA. Dans ce contexte, ils ont constaté que leurs espaces de travail étaient envahis par des “influenceurs” qui cherchent à vendre des applications GPT 3.5. De plus, ils ont remarqué la présence de personnes non qualifiées qui propagent une eschatologie néo-landienne de manière exagérée », écrit Kosinski.

« Malheureusement, ces individus ne contribuent pas de manière significative à la réflexion scientifique. Au contraire, ils génèrent un bruit assourdissant et en grande quantité. Il est important de souligner que ces personnes semblent ignorer le fait qu’une technologie révolutionnaire peut prendre des années, voire des décennies, avant de se répercuter sur l’économie », poursuit-il.

Des gens ne réalisent pas qu'une IA qui surpasse un humain à un test ne signifie pas qu'elle peut réellement faire ce que le test mesure (un bon exemple : GPT-4 obtient 84 % à l'examen théorique du maître sommelier, mais ne peut manifestement pas faire le travail d'un sommelier parce qu'il n'a pas de bouche). De telles subtilités échappent à l'amateur typique de FOMO et leur ton a contaminé d'autres personnes plus saines d'esprit.

Kosinski dit avoir répondu à des questions posées par des membres de sa famille inquiets de voir le GPT-4 atteindre la sensibilité et pirater les ordinateurs des utilisateurs (probablement sur la base de ce tweet).



Si ChatGPT est un outil incontestablement impressionnant, son impact - et celui d'autres outils similaires - sur notre société n'a pas encore été véritablement ressenti. La remarquable technologie d'OpenAI est désormais disponible sous sa forme la plus récente : GPT-4. Les démonstrations des prouesses de GPT-4 abondent sur l'internet, y compris sa capacité apparente à écrire du code à partir de zéro pour des sites web entièrement fonctionnels.

Selon OpenAI, GPT-4 est dorénavant capable de réussir des tests célèbres tels que le LSAT (Law School Admission Test) et les examens théoriques du Maîtres Sommelier créée pour promouvoir des normes de qualité pour le service des boissons dans les hôtels et les restaurants. La qualification de maître sommelier est l'une des plus hautes récompenses de l'industrie, divisée en examens théoriques et pratiques qui nécessitent de nombreux mois d'études pour être réussis.

Si ChatGPT n'a pas tenté de passer l'épreuve pratique de la qualification, il a en revanche réussi les trois niveaux de l'épreuve théorique. Selon des rapports d’études, l’invention d'OpenAI a obtenu un score impressionnant de 92 % à l'examen d'introduction à la Cour des maîtres sommeliers, de 86 % à l'examen de sommelier certifié et de 77 % à l'examen de sommelier avancé.

« GPT-4 est un grand modèle multimodal (acceptant des images et du texte en entrée, émettant du texte en sortie) qui, bien que moins performant que les humains dans de nombreux scénarios du monde réel, affiche des performances de niveau humain sur divers benchmarks professionnels et académiques », a déclaré OpenAI sur son site web.

GPT-4 a également obtenu un score impressionnant de 163 au LSAT, un score suffisant pour entrer dans l'une des 20 meilleures écoles de droit des États-Unis.
La banque suisse UPS a déclaré que ChatGPT est l'application qui a connu la plus forte croissance de tous les temps, avec 100 millions d'utilisateurs au cours des deux premiers mois qui ont suivi son lancement.

Source : Michal Kosinski's blog post

Et vous ?

Quel est votre avis sur le sujet ? L'analyse de Michal Kosinski est-elle pertinente ?

Quels sont selon vous, les critères objectifs pour évaluer la qualité d’une IA comme GPT-4 ?

Quelles peuvent être les conséquences éthiques et sociales d’une IA qui peut « s’efforcer de se tromper » ?

Quelles sont les limites et les risques d’une IA qui peut inventer des réponses sur des sujets historiques ou factuels ?

Voir aussi :

GPT-4 surpasse les humains dans l'efficacité des pitchs pour les investisseurs et les chefs d'entreprise, 80 % d'entre eux trouvent les pitchs générés par l'IA plus convaincants, selon Clarify Capital

OpenAI annonce la disponibilité générale de son API GPT-4, permettant ainsi aux développeurs d'intégrer la dernière génération de son IA générative dans leurs applications

GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de BufferBob
Expert éminent https://www.developpez.com
Le 30/09/2023 à 19:15
"(...) de personnes non qualifiées qui propagent une eschatologie néo-landienne (...)", en gros les gens qui croient savoir ce qu'est l'IA et comment elle fonctionne alors qu'ils n'y connaissent rien et se doublent d'un pessimisme infondé, "je suis webmaster alors l'IA t'inquiète j'connais : c'est le mal, on va tous mourir et de toutes façons elle est même pas vraiment intelligente", toute ressemblance avec des centaines de commentaires identiques depuis des années sur le présent forum est purement fortuite...

en revanche quelqu'un a une idée de ce à quoi il fait référence avec l'adjectif "néo-landien" ? tout ce que je trouve c'est un "paradoxe de Landé" je sais pas si c'est bien pertinent...

edit: j'ai trouvé finalement, il semble que Nick Land est un philosophe, dont la pensée et les écrits sont résolument tournés vers le futur, le cyberpunk, l'accélérationisme, la post-humanité etc.
0  0