Les conclusions d'une étude publiée récemment suggèrent que les performances de ChatGPT et GPT-4 semblent en déclin. L'étude a comparé les performances des modèles d'IA d'OpenAI (GPT-3.5 et GPT-4) pendant plusieurs mois sur quatre tâches diverses : résoudre des problèmes mathématiques, répondre à des questions délicates, générer du code logiciel et raisonner visuellement. Le rapport d'étude révèle que les chatbots ont obtenu des résultats médiocres sur certaines tâches en juin que dans leurs versions de mars. Le résultat le plus remarquable concernait GPT-4, dont la précision dans un exercice de mathématique a chuté de 98 % en mars à 2 % en juin.ChatGPT est un chatbot d'IA qui utilise le traitement du langage naturel (NLP) pour créer un dialogue conversationnel semblable à celui des humains. Il s'agit d'un grand modèle de langage capable de répondre à des questions et composer divers contenus écrits, notamment des articles, des messages sur les médias sociaux, des essais, des codes et des courriels. Le chatbot d'IA est rapidement devenu très population dès sa publication en novembre, mais au cours des derniers mois, plusieurs utilisateurs ont commencé à se plaindre d'une baisse de ses performances. Des chercheurs se sont penchés sur la question et viennent de publier leur rapport.
L'étude, qui a été menée par les chercheurs Lingjiao Chen et James Zou, de l'université de Stanford, et Matei Zaharia, de l'université de Berkeley, conclut que ChatGPT ne s'est pas amélioré au fil du temps et qu'il a même empiré. Dans le cadre de l'étude, les chercheurs ont évalué GPT-3.5 et GPT-4 entre mars et juin 2022. Le groupe a élaboré des critères rigoureux pour évaluer les compétences des modèles en mathématiques, en codage et en raisonnement visuel. Conclusion : « les performances et le comportement de ces deux modèles peuvent varier considérablement dans le temps et les performances de GPT-4 se sont dégringolées au fil du temps ».
Les tests ont révélé une chute étonnante des performances entre les différentes versions. Par exemple, dans le cadre d'un problème mathématique consistant à déterminer les nombres premiers, GPT-4 a résolu correctement 488 questions sur 500 en mars, soit une précision de 97,6 %. Cependant, en juin, GPT-4 n'a réussi à répondre correctement qu'à 12 questions, avec un taux de précision de 2,4 %. Quant à GPT-3.5, il a connu une trajectoire pratiquement inverse. La version de mars n'a répondu correctement à la même question que 7,4 % du temps, alors que la version de juin fait beaucoup mieux, avec une réponse correcte 86,8 % du temps.
Le déclin a été particulièrement marqué dans les capacités de codage logiciel des chatbots. Pour GPT-4, le pourcentage de codes générés directement exécutables est passé de 52,0 % en mars à 10,0 % en juin. Ces résultats ont été obtenus en utilisant la version pure des modèles, ce qui signifie qu'aucun plug-in d'interprétation de code n'a été utilisé. James Zuo, professeur d'informatique à Stanford et l'un des auteurs de l'étude, estime que "l'ampleur du changement" était inattendue de la part de GPT-4. En effet, lors de son lancement, GPT-4 a été décrit par OpenAI comme étant une version hautement sophistiquée et précise de ChatGPT (GPT-3.5).
Pour évaluer le raisonnement, le groupe de chercheurs a utilisé des invites visuelles provenant de l'ensemble de données Abstract Reasoning Corpus (ARC). Même dans ce cas, bien qu'il ne soit pas aussi marqué, un déclin a été observé. « En juin, GPT-4 a commis des erreurs sur des requêtes pour lesquelles il était correct en mars », peut-on lire dans le rapport. Les universitaires se disent surpris par la baisse des performances de GPT-4. Comment expliquer la dégradation apparente du ChatGPT après seulement quelques mois ? Les chercheurs ont émis l'hypothèse qu'il pourrait s'agir d'un effet secondaire des optimisations effectuées par OpenAI.
Les changements introduits pour empêcher ChatGPT de répondre à des questions dangereuses pourraient en être la cause. Le rapport indique que cet alignement sur la sécurité pourrait toutefois nuire à l'utilité de ChatGPT pour d'autres tâches. Les chercheurs ont constaté que le modèle a désormais tendance à donner des réponses verbeuses et indirectes au lieu de réponses claires. « Lorsque nous ajustons un LLM pour améliorer ses performances dans certaines tâches, cela peut avoir plusieurs conséquences imprévues, qui peuvent en fait nuire aux performances de ce modèle dans d'autres tâches », a déclaré Zuo dans une interview accordée à Fortune.
« Il existe toutes sortes d'interdépendances intéressantes dans la manière dont le modèle de langage répond aux questions, ce qui peut...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Quels compromis seriez-vous prêt à accepter pour permettre l’innovation en IA tout en protégeant les droits des auteurs ?
