ChatGPT a relancé de plus belle la course à l'IA et depuis son lancement il y a un an, les plateformes rivales ont toujours du mal à égaler ses performances. Cependant, les utilisateurs de ChatGPT ont commencé à se plaindre d'une régression des performances du chatbot. Ils sont plaints que ChatGPT refuse de faire ce que les gens lui demandent ou qu'il ne semble pas intéressé par les réponses à leurs questions. En outre, ils ont aussi rapporté que parfois, lorsque ChatGPT se décidait à répondre à une question, il n'allait pas au bout de sa réponse et demandait à l'utilisateur de compléter le reste. Selon les plaignants, ChatGPT serait devenu "paresseux".
Par exemple, certains affirment avoir demandé un morceau de code, mais ChatGPT s'est contenté de donner quelques informations, puis demander aux utilisateurs de compléter le reste. Certains se sont plaints qu'il le faisait de manière particulièrement insolente, en disant aux utilisateurs qu'ils étaient parfaitement capables de faire le travail eux-mêmes. « Je lui ai demandé l'âge d'une célébrité et il m'a répondu : "il est né à cette date. Avec cette information vous pouvez le découvrir vous-même". Je lui ai demandé pourquoi il ne pouvait pas le faire, ce qu'il a fait, mais j'ai eu l'impression qu'il était inutilement insolent », peut-on lire dans les commentaires.
« ChatGPT donne des réponses de moins en moins utiles et il dit parfois simplement non à une requête. J'ai vu de nombreuses fois ChatGPT dire qu'il ne pouvait pas répondre à une demande et demander autre chose. Je suis obligé de créer un nouveau chat et après quelques invites, il n'est plus utile », a écrit un utilisateur. Un autre critique a commenté : « c'est un problème terrible qui doit être résolu le plus rapidement possible. Il ne permet plus d'écrire un code long et complet ». On peut lire également dans les commentaires : « le système donne trop de réponses vagues, en particulier aux questions sur Docker, Kubernetes et autres CI/CD ».
Dans de nombreux fils de discussion sur Reddit et même dans des messages sur les forums de développement d'OpenAI, les utilisateurs se sont plaints que le système était devenu moins utile. Ils ont également supposé que le changement avait été fait intentionnellement par OpenAI pour que ChatGPT soit plus efficace et ne renvoie pas de longues réponses. Théoriquement, cela le rendrait moins coûteux. En effet, les systèmes d'IA tels que ChatGPT nécessitent une puissance de calcul importante, ce qui rend les réponses détaillées coûteuses. Ainsi, l'entreprise est accusée d'avoir sacrifié l'expérience de l'utilisateur au profit de l'optimisation des ressources.
OpenAI a déclaré avoir pris connaissance des plaintes et qu'une enquête est en cours. La société a précisé qu'aucune modification n'a été apportée au système d'IA et a rejeté les allégations selon lesquelles elle aurait bridé ses performances. « Nous avons entendu tous vos commentaires sur le fait que GPT-4 devient plus paresseux. Nous n'avons pas mis à jour le modèle depuis le 11 novembre, et ce n'est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous cherchons à le corriger », a écrit OpenAI sur X. Dans un long billet sur X, il a tenté d'expliquer que la formation du modèle pouvait être à l'origine du problème.
OpenAI a souligné que la formation des modèles d'IA n'est pas "un processus industriel propre" et que les variations dans les cycles de formation peuvent entraîner des différences notables dans la personnalité de l'IA, son style créatif et son parti pris politique. Les tests approfondis des modèles comprennent des mesures d'évaluation hors ligne et des tests A/B en ligne. Selon l'entreprise, la décision finale de lancer un nouveau modèle repose sur une approche fondée sur les données afin d'améliorer l'expérience "réelle" de l'utilisateur. Mais ces explications ne convainquent pas les utilisateurs, certains affirmant qu'il est peu probable qu'il s'agisse d'un bogue.we've heard all your feedback about GPT4 getting lazier! we haven't updated the model since Nov 11th, and this certainly isn't intentional. model behavior can be unpredictable, and we're looking into fixing it 🫡
— ChatGPT (@ChatGPTapp) December 8, 2023
« Je doute fort qu'il s'agisse d'un bogue. Il est très facile d'équilibrer et d'ajuster les performances d'un LLM sur une tonne de paramètres différents. (De plus, les vrais bogues critiques ne sont pas quelque chose que les entreprises veulent ignorer comme ça pendant des mois.) Ils réduisent simplement les performances pour que leur fonctionnement soit moins coûteux. En outre, "enquêter" est une autre façon de dire : "nous ne l'admettrons jamais, il faut s'y habituer" », a écrit un utilisateur de ChatGPT. Certains utilisateurs ont menacé de se suspendre leurs abonnements à la version payante de ChatGPT et d'autres ont préféré tourner la situation en dérision.
« Nous y voilà ! J'ai dû dire 5 fois à ChatGPT de corriger le code qu'il m'avait fourni. Il a reconnu qu'il avait fait une erreur. Pourtant, il m'a généré à nouveau le même code. Au moins, nous n'aurons plus à craindre de perdre notre emploi. C'est aussi mauvais que nous, mais la direction ne pourra plus avoir son bonus », a plaisanté un critique. Un autre a souligné : « honnêtement, il a été assez mauvais pour moi depuis le début. Il me donne toujours des réponses erronées et invente des conneries. Ce n'est pas de la paresse. ChatGPT est inutile. Les réponses qu'il me donne sont pires que celles de Google Search. Pourquoi perdre du temps avec cette merde ? »
Cela dit, ce n'est pas la première fois que les performances de ChatGPT sont remises en cause. En juillet, des chercheurs de l'Université de Stanford et de l'Université de Californie à Berkeley ont rapporté que les capacités de ChatGPT dans la résolution de certaines opérations mathématiques de base ont chuté d'une version à l'autre. L'étude a analysé les performances de GPT-3.5 et GPT-4 pendant plusieurs mois sur quatre tâches diverses : résoudre des problèmes mathématiques, répondre à des questions délicates, générer du code logiciel, etc. Les chatbots ont obtenu des résultats médiocres sur certaines tâches en juin que dans leurs versions de mars.this process is less like updating a website with a new feature and more an artisanal multi-person effort to plan, create, and evaluate a new chat model with new behavior!
— ChatGPT (@ChatGPTapp) December 9, 2023
Le résultat le plus remarquable concernait GPT-4, dont la précision dans un exercice de mathématique a chuté de 98 % en mars à 2 % en juin. « Les performances et le comportement de ces deux modèles peuvent varier considérablement dans le temps et les performances de GPT-4 se sont dégringolées au fil du temps », ont écrit les chercheurs en guise de conclusion. La nouvelle controverse survient dans un contexte d'agitation au sein d'OpenAI, après l'éviction surprise puis de la réintégration du PDG Sam Altman. Avec des questions sur les raisons de cette saga, le problème du "ChatGPT paresseux" ajoute une nouvelle couche à l'histoire de l'entreprise.
Le licenciement surprise d'Altman en novembre a provoqué une onde de choc dans l'industrie technologique, laissant des questions sans réponse et des spéculations à profusion. Malgré le silence d'Altman sur la question, une enquête du Washington Post dresse un tableau inquiétant de son comportement "psychologiquement abusif" et "toxique" à l'égard des employés. Le rapport, qui cite des sources anonymes, affirme qu'Altman a favorisé une atmosphère de chaos et de manipulation, ce qui a conduit à des plaintes concernant son comportement auprès de l'ancien conseil d'administration.
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des rapports qualifiant ChatGPT de "paresseux" ?
Qu'est-ce qui pourrait être à l'origine du comportement de ChatGPT ?
OpenAI a-t-il bridé intentionnellement les capacités de son chatbot pour réduire les coûts ?
Avez-vous rencontré les mêmes problèmes dernièrement ? Si oui, partagez votre expérience.
Voir aussi
La plupart des employés d'OpenAI ne voulaient pas travailler pour Microsoft, car cela aurait signifié perdre plusieurs avantages, selon un rapport qui s'appuie sur des témoignages
Pourquoi ChatGPT devient-il plus nul en mathématiques de base ? Selon une étude, la raison serait un phénomène de dérive imprévisible
GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin