OpenAI a ajouté de nouvelles capacités telles que l'acceptation d'images en entrée et la génération de légendes, de classifications et d'analyses. GPT-4 serait également capable de traiter plus de 25 000 mots de texte, ce qui permet des cas d'utilisation tels que la création de contenu de longue durée, les conversations prolongées, ainsi que la recherche et l'analyse de document. Dans une vidéo de démonstration, Greg Brockman, président d'OpenAI, a montré comment GPT-4 pouvait être entraînée à répondre rapidement à des questions d'ordre fiscal, telles que le calcul de la déduction standard d'un couple marié et du montant total de l'impôt à payer.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: <a href="https://t.co/TwLFssyALF">https://t.co/TwLFssyALF</a> <a href="https://t.co/lYWwPjZbSg">pic.twitter.com/lYWwPjZbSg</a></p>— OpenAI (@OpenAI) <a href="https://twitter.com/OpenAI/status/1635687373060317185?ref_src=twsrc%5Etfw">March 14, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
« Ce modèle est très doué pour le calcul mental. Il possède de vastes capacités qui sont très flexibles », a déclaré Brockman. Dans une autre vidéo, la société explique que GPT-4 dispose d'un éventail de fonctionnalités que la précédente itération du modèle n'avait pas, dont la possibilité de "raisonner" à partir d'images téléchargées par les utilisateurs. Bien que GPT-4 ne puisse pas de générer du texte à partir d'une vidéo et d'autres contenus dynamiques génératifs, il donne un aperçu de ce à quoi ressemblera un chat multimodal à l'avenir. À l'avenir, la vidéo, l'audio, les images et toutes les autres formes de contenu pourraient être intégrées dans le chat.
Dans un billet de blogue publié sur son site Web, OpenAI a annoncé que GPT-4 surpasse ChatGPT (GPT-3.5) dans ses capacités de raisonnement avancées et exploite davantage de données et de calculs pour créer des modèles de langage de plus en plus sophistiqués et performants. L'entreprise ajoute : « nous avons passé six mois à rendre GPT-4 plus sûr et mieux aligné. D'après nos évaluations internes, GPT-4 est 82 % moins susceptible de répondre à des demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles que GPT-3.5 ». Cela suggère que GPT-4 résout partiellement le problème d'injection d'invites.
La mise à jour n'a pas encore un mois révolu, mais elle a déjà servi à faire de nombreuses choses.
Un jeu vidéo complexe
Sans formation en programmation, Ammaar Reshi, Design Manager chez Brex Inc (une société américaine de services financiers et de technologie basée à San Francisco, en Californie) a créé un jeu vidéo (complexe) à partir de zéro.
Et Reshi d'expliquer :
Après avoir vu la récréation de pong de @skirano et @javilopen en train de faire une démo de DOOM, je voulais voir si je pouvais pousser GPT-4 à créer un jeu en 3D complet. Un de mes préférés d'enfance était un jeu MS-DOS appelé SkyRoads - il a été oublié depuis longtemps. Mais... GPT-4 était-il au courant ?
Il s'avère que oui ! Cela semblait décrire la page Wikipédia du jeu, mais c'était tout... c'était donc un véritable test - pourrions-nous redonner vie à ce jeu en nous basant uniquement sur notre compréhension et une description ?
Je ne sais pas comment écrire une ligne de code de programmation de jeu 3D, j'ai donc demandé à GPT-4 de choisir comment il ferait le jeu, il a suggéré d'utiliser BabylonJS, HTML et CSS. Ensuite, j'ai décrit exactement ce que nous emprunterions à SkyRoads et en quoi cette version serait différente - voici le prompt :
Une fois que j'ai reçu le code, je l'ai collé dans Replit [ndlr. anciennement Repl.it, est une start-up basée à San Francisco et un environnement de développement intégré en ligne. Replit étant un logiciel en tant que service, il permet aux utilisateurs de créer des projets en ligne et d'écrire du code] exactement comme GPT me l'a dit aussi, et cela a fonctionné ! Sauf que... nous étions loin du produit final. Le cube vert, notre futur vaisseau spatial, n'avait pas la capacité de tourner à gauche ou à droite, aucun moyen d'esquiver ces obstacles embêtants. Eh bien, GPT a corrigé ça🚀
Ensuite, l'angle de prise de vue était décalé, on voyait ce cube de face, mais il fallait être derrière le vaisseau spatial ! J'ai donc décrit à quoi la caméra devait ressembler, et GPT a corrigé cela. Il s'avère que c'était un simple changement d'une ligne.
Puis vint le bug insaisissable. Le vaisseau spatial se lancerait dans l'abîme si j'appuyais sur les touches saut + directionnelle, faisant planter le jeu. GPT-4 et moi avons tout essayé pendant des HEURES. Je me suis tourné vers Claude de @AnthropicAI sur @poe_platform. En moins de 60 secondes, Claude l'a résolu.
Cela a également ouvert une nouvelle façon de travailler pour moi. Claude pourrait aider avec de petites corrections. Nous avions une équipe.
Il y avait beaucoup d'autres bugs. Le navire tombait à travers la piste, la piste s'arrêtait juste à une certaine longueur, mais ensuite la dynamique entre moi et GPT/Claude est devenue claire : j'étais le testeur de jeu essayant de casser le jeu. GPT et Claude faisaient de leur mieux pour y remédier.
Maintenant que le bug a été résolu, revenons à la partie amusante ! J'avais besoin d'arrière-plans, de textures et d'un modèle de vaisseau spatial pour mon jeu. J'ai trouvé mon modèle de vaisseau spatial sur @Sketchfab et j'ai demandé à GPT de me donner le code pour remplacer ce cube vert par mon fichier de modèle 3D.
Ensuite, je suis allé sur MidJourney pour l'arrière-plan et les textures, et je les ai mis à l'échelle en utilisant la super résolution de @pixelmator et son pinceau magique pour rendre la texture plus homogène.
Puis j'ai demandé à GPT de faire entrer tous mes fichiers. Ensuite, j'ai rendu le jeu plus difficile. Les obstacles devaient être de largeur variable, la piste devait se séparer à gauche et à droite, je voulais enregistrer le meilleur score du joueur pour qu'il ait quelque chose à battre.
Enfin, je suis allé sur @epidemicsound pour ajouter de la musique au jeu, puis j'ai demandé à GPT-4 de me donner le code pour ajouter un lecteur de musique, une explosion et des sons de jeu lorsque vous plantez. Un synthé classique lorsque vous pilotez votre vaisseau, bien sûr !
Autres notes : il est arrivé à un point où le code était trop long pour que GPT puisse le prendre comme question, j'ai donc dû utiliser le terrain de jeu de l'API. Un conseil de pro de @skirano, mais GPT s'est en fait amélioré quand je lui ai dit que c'était « un développeur BabylonS de classe mondiale ».
Et voila! En l'espace de 3 jours, sans aucune connaissance en programmation de jeux 3D, j'ai pu recréer une adaptation de l'un de mes jeux préférés d'enfance en utilisant une combinaison d'Al et d'outils existants !
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">So, you think GPT-4 can't make a complex game... think again!<br><br>Here's how I used GPT-4, <a href="https://twitter.com/Replit?ref_src=twsrc%5Etfw">@Replit</a>, MidJourney, and Claude to assemble an AI team and create a 3D space runner from scratch with ZERO knowledge of Javascript or game programming.<br><br>Follow along for a saga! 🧵 <a href="https://t.co/Fpg4ANBvCm">pic.twitter.com/Fpg4ANBvCm</a></p>— Ammaar Reshi (@ammaar) <a href="https://twitter.com/ammaar/status/1637830530216390658?ref_src=twsrc%5Etfw">March 20, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Un analyste de chatbot pour les données volumineuses
Mayo, Ingénieur IA & Contributeur chez LangChainAI (Javascript), s'est appuyé sur GPT-4 pour développer un chatbot capable d'analyser des données financières volumineuses. Dans le cas d'espèce, il a « construit un analyste financier GPT-4 'Warren Buffett' pour 'discuter' avec et analyser plusieurs fichiers PDF (~ 1000 pages) dans les rapports annuels Tesla 10-k d'Elon Musk (2020-2022) ».
Il a mis à la disposition des personnes susceptibles d'être intéressées un tutoriel vidéo et propose un programme de formation étape par étape pour débutants sur la façon de créer un chatbot prêt pour la production pour leurs données.
Écrire du code depuis sa montre connectée
Mckay Wrigley explique qu'il a placé un raccourci iOS le conduisant à GPT-4 et GitHub.
Voici comment cela fonctionne:
- identifie le dépôt
- identifie les fichiers cibles
- écrit le code pour moi
- crée une branche
- valide les changements
Maintenant, je peux coder directement sur mon Apple Watch avec rien d'autre que ma voix !
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">I hooked up an iOS shortcut to GPT-4 and GitHub.<br><br>Here’s how it works:<br>- identifies the repo<br>- identifies the target files<br>- writes the code for me<br>- creates a branch<br>- commits changes<br><br>Now I can code right on my Apple Watch with nothing but my voice! <a href="https://t.co/zr0fXGJoTb">pic.twitter.com/zr0fXGJoTb</a></p>— Mckay Wrigley (@mckaywrigley) <a href="https://twitter.com/mckaywrigley/status/1640767366266232832?ref_src=twsrc%5Etfw">March 28, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Sources : ChatGPT Chabot for your data, cas d'utilisation (Twitter)
Et vous ?
Quelle lecture faites-vous de ces cas d'utilisation ?
Comment les trouvez-vous ? Pratiques ? Totalement inutiles ?
En connaissez-vous d'autres ? Lesquels ?