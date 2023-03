ChatGPT, basé sur GPT-3

GPT-4 est multimodal et basé sur Kosmos-1

GPT-4 apporte la fonction de saisie de texte et introduit l'élément visuel

Microsoft Bing est un moteur de recherche élaboré par la société Microsoft. Il a été rendu public le 3 juin 2009. Au moment de sa sortie, en 2008, cela révélait un changement dans la stratégie commerciale de Microsoft, qui séparait son moteur de recherche de sa suite d’applications Windows Live. Microsoft a récemment annoncé que le nouveau chatbot Bing AI serait intégré à la version stable de son navigateur web Edge.La fonctionnalité a été introduite pour la première fois en février 2023 en tant que Preview pour les développeurs et non en tant que version publique, selon les rapports. En se rendant sur le portail en ligne du « nouveau Bing », en cliquant sur "Rejoindre la liste d'attente" et en se connectant à l'aide d'un compte Microsoft, les utilisateurs pourraient accéder immédiatement au chatbot alimenté par le GPT-4.Bien que le nouveau Bing soit désormais disponible pour tout le monde, il est encore en version Preview et les utilisateurs doivent s'inscrire pour le tester. En le rendant exclusif à Edge, Microsoft encourage également l'utilisation de son propre navigateur, qui a récemment attiré 100 millions d'utilisateurs actifs chaque jour. Le GPT-4 d'OpenAI est disponible séparément sur ChatGPT Plus (une version payante de ChatGPT). C'est le quatrième de la série GPT.GPT-3 est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire des textes similaires à ceux des humains. Il s'agit du modèle de prédiction du langage de troisième génération de la série GPT-n créé par OpenAI, un laboratoire de recherche en intelligence artificielle basé à San Francisco et composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc.ChatGPT, basé sur GPT-3, s'est déjà révélé à la fois passionnant et controversé, de nombreuses personnes ayant exprimé des craintes quant à la manière dont l'outil textuel pourrait être utilisé, mais aussi quant à la manière dont il pourrait se développer. Avec l'ajout de la vidéo et d'autres médias au mélange, ces préoccupations ne feront que s'accentuer, le potentiel de création facile de fausses vidéos étant une source d'inquiétude.La startup OpenAI a déclaré mardi qu'elle commençait à diffuser un puissant modèle d'intelligence artificielle connu sous le nom de GPT-4 , ouvrant la voie à la prolifération d'une technologie de type humain et à une concurrence accrue entre son bailleur de fonds Microsoft et Google d'Alphabet. OpenAI, qui a créé le chatbot sensationnel ChatGPT, a déclaré dans un billet de blog que sa dernière technologie était « multimodale », ce qui signifie que des images ainsi que des invites textuelles peuvent l'inciter à générer du contenu.Microsoft a publié son document de recherche, intitulé. Le modèle présente un grand modèle de langage multimodal (MLLM) appelé Kosmos-1. L'article souligne l'importance d'intégrer le langage, l'action, la perception multimodale et la modélisation du monde pour progresser vers l'intelligence artificielle. La recherche explore Kosmos-1 dans différents contextes.Les grands modèles de langage (LLM) ont servi avec succès d'interface polyvalente pour diverses tâches de langage naturel [BMR+20]. L'interface basée sur les LLM peut être adaptée à une tâche tant que nous sommes capables de transformer l'entrée et la sortie en textes. Par exemple, l'entrée du résumé est un document et la sortie est son résumé. +Les chercheurs peuvent donc introduire le document d'entrée dans le modèle de langage, puis produire le résumé généré.KOSMOS-1 est un grand modèle de langage multimodal (MLLM) qui peut percevoir des modalités générales, suivre des instructions (c.-à-d., apprentissage à zéro coup) et apprendre en contexte (c.-à-d., apprentissage à quelques coups). L'objectif est d'aligner la perception avec les MLLMs, de sorte que les modèles soient capables de voir et de parler. Pour être plus précis, nous suivons METALM [HSD+22] pour former le modèle KOSMOS-1 à partir de zéro.Le modèle montre des capacités prometteuses sur diverses tâches de génération en percevant des modalités générales telles que le NLP sans OCR, l'AQ visuelle, et les tâches de perception et de vision. L'équipe de recherche de Microsoft a également présenté le modèle à un ensemble de données du test de QI de Raven pour analyser et diagnostiquer les possibilités de raisonnement non verbal des MLLM. « Les limites de ma langue signifient les limites de mon monde », Ludwig Wittgenstein.Sam Altman, cofondateur d’OpenAI, a déclaré que GPT-4 utilisera beaucoup plus de calcul que son prédécesseur. OpenAI devrait implémenter des idées liées à l'optimalité dans GPT-4 - bien que l'on ne puisse pas prévoir dans quelle mesure, puisque leur budget est inconnu. Cependant, les déclarations d'Altman montrent qu'OpenAI devrait se concentrer sur l'optimisation d'autres variables que la taille du modèle. Trouver le meilleur ensemble d'hyperparamètres, la taille optimale du modèle et le nombre de paramètres pourrait entraîner des améliorations incroyables dans tous les benchmarks.Selon les analystes, toutes les prédictions pour les modèles de langage tomberont à l'eau si ces approches sont combinées en un seul modèle. Altman a également déclaré que les gens ne croiraient pas à quel point les modèles peuvent être meilleurs sans être forcément plus grands. Il suggère peut-être que les efforts de mise à l'échelle sont terminés pour le moment.Avec GPT-4, la fonction de saisie de texte sera disponible pour les abonnés de ChatGPT Plus et les développeurs de logiciels, avec une liste d'attente, tandis que la capacité de saisie d'images reste un aperçu de ses recherches. Ce lancement très attendu montre que les employés de bureau peuvent se tourner vers une IA toujours plus performante pour accomplir de nouvelles tâches, et que les entreprises technologiques sont en concurrence pour tirer parti de ces progrès.« Nous avons passé six mois à rendre le GPT-4 plus sûr et mieux aligné. D'après nos évaluations internes, GPT-4 est 82 % moins susceptible de répondre à des demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles que GPT-3.5 », OpenAI. L'entreprise a pris en compte les commentaires des utilisateurs de ChatGPT pour améliorer le comportement de GPT-4. Elle a également fait appel à plus de 50 experts pour obtenir un premier retour d'information dans des domaines tels que la sûreté et la sécurité de l'IA.Dans sa dernière version, OpenAI introduit l'élément visuel, qui permet d'utiliser des images dans les requêtes. L'algorithme peut lire intelligemment l'image, comprendre le contexte et produire une réponse en un rien de temps.« Vous pouvez lui demander d'expliquer l'intrigue de Cendrillon en une seule phrase où chaque mot doit commencer par la lettre suivante de l'alphabet, de A à Z, sans répéter aucune lettre », indique OpenAI. Caitlin Roulston, directrice de la communication chez Microsoft a déclaré : « Pendant cette période de prévisualisation, nous effectuons divers tests qui peuvent accélérer l'accès au nouveau Bing pour certains utilisateurs. Nous restons en version Preview et vous pouvez vous inscrire sur Bing.com ».La modification de la liste d'attente de Microsoft intervient juste un jour après que l'entreprise a confirmé que son chatbot Bing AI fonctionnait avec GPT-4, le modèle de langage d'IA de nouvelle génération d'OpenAI.La suppression de la liste d'attente est également intervenue un jour avant que Microsoft n'organise un événement au cours duquel elle présente les ajouts de l'IA à son logiciel de productivité Office. L'IA de type ChatGPT de Microsoft fonctionnera dans les applications Office telles que Teams, Word et Outlook. Microsoft a également ajouté son chatbot Bing AI à une nouvelle barre latérale de son navigateur Microsoft Edge.Microsoft a annoncé pour la première fois sa nouvelle IA Bing le mois dernier et a ouvert une liste d'attente le même jour. L'entreprise a progressivement ouvert la liste d'attente, tout en limitant le nombre de questions que pouvait poser les utilisateurs par session et par jour. Ces restrictions ont été mises en place pour éviter que le chatbot n'adopte un comportement « instable ». Les utilisateurs de Bing Chat peuvent désormais poser 15 questions par session et un maximum de 150 par jour.Source : Microsoft Quel est votre avis sur le sujet ?Pensez-vous que l'IA pourra aider le moteur de recherche Bing de Microsoft à concurrencer le Moteur Google ?