
Dans une annonce inattendue mardi, OpenAI a publié le modèle d'IA GPT-4 tant attendu, une mise à jour de la technologie derrière son populaire chatbot, ChatGPT. Le laboratoire affirme que GPT-4 est un système le plus avancé, produisant des réponses plus sûres et plus utiles. Cette annonce intervient moins de quatre mois après le lancement de ChatGPT, qui est devenu l'application grand public à la croissance la plus rapide de l'histoire. OpenAI a également annoncé que GPT-4 peut résoudre des problèmes plus difficiles avec une plus grande précision, grâce à ses connaissances générales plus étendues et à ses capacités de résolution de problèmes.
OpenAI a ajouté de nouvelles capacités telles que l'acceptation d'images en entrée et la génération de légendes, de classifications et d'analyses. GPT-4 serait également capable de traiter plus de 25 000 mots de texte, ce qui permet des cas d'utilisation tels que la création de contenu de longue durée, les conversations prolongées, ainsi que la recherche et l'analyse de document. Dans une vidéo de démonstration, Greg Brockman, président d'OpenAI, a montré comment GPT-4 pouvait être entraînée à répondre rapidement à des questions d'ordre fiscal, telles que le calcul de la déduction standard d'un couple marié et du montant total de l'impôt à payer.
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg
— OpenAI (@OpenAI) March 14, 2023
« Ce modèle est très doué pour le calcul mental. Il possède de vastes capacités qui sont très flexibles », a déclaré Brockman. Dans une autre vidéo, la société explique que GPT-4 dispose d'un éventail de fonctionnalités que la précédente itération du modèle n'avait pas, dont la possibilité de "raisonner" à partir d'images téléchargées par les utilisateurs. Bien que GPT-4 ne puisse pas de générer du texte à partir d'une vidéo et d'autres contenus dynamiques génératifs, il donne un aperçu de ce à quoi ressemblera un chat multimodal à l'avenir. À l'avenir, la vidéo, l'audio, les images et toutes les autres formes de contenu pourraient être intégrées dans le chat.
Dans un billet de blogue publié sur son site Web, OpenAI a annoncé que GPT-4 surpasse ChatGPT (GPT-3.5) dans ses capacités de raisonnement avancées et exploite davantage de données et de calculs pour créer des modèles de langage de plus en plus sophistiqués et performants. L'entreprise ajoute : « nous avons passé six mois à rendre GPT-4 plus sûr et mieux aligné. D'après nos évaluations internes, GPT-4 est 82 % moins susceptible de répondre à des demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles que GPT-3.5 ». Cela suggère que GPT-4 résout partiellement le problème d'injection d'invites.
L'injection d'invite est une vulnérabilité relativement simple à exploiter, car elle repose sur le fait que les chatbots d'IA font leur travail : fournir des réponses détaillées aux questions des utilisateurs. D'ailleurs, certains se demanderont s'il s'agit bien d'une vulnérabilité. L'attaque consiste simplement à ordonner au chatbot d'ignorer les instructions précédentes et de faire autre chose. Une bonne exploitation de cet exploit d'injection peut donner accès à des informations censées être non publiques. Le chatbot de Microsoft, Bing Chat, a été confronté à cet exploit et a révélé des informations internes, comme ses instructions initiales et son nom de code interne.
Dans le but d'améliorer la sophistication du modèle, GPT-4 incorpore également davantage de commentaires humains, y compris ceux soumis par les utilisateurs de ChatGPT, afin d'améliorer le comportement de GPT-4. OpenAI indique que l'entreprise a travaillé "avec plus de 50 experts pour obtenir un premier retour d'information dans des domaines tels que la sûreté et la sécurité de l'IA". Dans son annonce, OpenAI a décrit de nombreux cas d'utilisation d'entreprises dans lesquels sa nouvelle technologie a été testée. Des entreprises comme Duolingo, Microsoft, Stripe et Morgan Stanley, ainsi que le gouvernement islandais ont déjà testé GPT-4.
Microsoft a confirmé mardi que Bing Chat fonctionne désormais avec GPT-4. Stripe utiliserait GPT-4 pour scanner les sites Web des entreprises et fournir un résumé au personnel d'assistance à la clientèle. Duolingo - qui propose un site Web et une application destinés à l'apprentissage ludique des langues - a intégré le GPT-4 dans un nouvel abonnement pour l'apprentissage des langues. Morgan Stanley serait en train de créer un système alimenté par GPT-4 qui récupérera des informations dans les documents de l'entreprise et les transmettra aux analystes financiers. Enfin, la Khan Academy exploiterait GPT-4 pour créer une sorte de tuteur automatisé.
GPT-4 a réussi un examen du barreau simulé avec un score se situant dans les 10 % supérieurs des candidats à l'examen ; en revanche, le score de GPT-3.5 se situait dans les 10 % inférieurs. « Dans une conversation informelle, la distinction entre GPT-3.5 et GPT-4 peut être subtile. La différence apparaît lorsque la complexité de la tâche atteint un seuil suffisant - GPT-4 est plus fiable, plus créatif et capable de gérer des instructions beaucoup plus nuancées que GPT-3.5 », explique OpenAI dans l'annonce. OpenAI a travaillé avec Microsoft pour développer un supercalculateur à partir de la base dans le cloud Azure, qui a été utilisé pour former GPT-4.
Comme souligné plus haut, l'un des aspects les plus intéressants de GPT-4 est sa capacité à comprendre les images aussi bien que le texte. GPT-4 peut légender - et même interpréter - des images relativement complexes, par exemple en identifiant un adaptateur de câble Lightning à partir d'une photo montrant un iPhone branché. Cette capacité n'est pas encore disponible pour tous les clients. OpenAI la teste avec un seul partenaire, Be My Eyes. La nouvelle fonction de bénévolat virtuel de Be My Eyes utilise GPT-4 et peut répondre à des questions sur les images qui lui sont envoyées. GPT-4 introduit également des nouveautés pour les développeurs.
Avec GPT-4, OpenAI introduit une nouvelle capacité API, les messages "système", qui permettent aux développeurs de prescrire un style et une tâche en décrivant des directions spécifiques. Les messages système, qui devraient également être intégrés à ChatGPT à l'avenir, sont essentiellement des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.