
Microsoft Bing est un moteur de recherche élaboré par la société Microsoft. Il a été rendu public le 3 juin 2009. Au moment de sa sortie, en 2008, cela révélait un changement dans la stratégie commerciale de Microsoft, qui séparait son moteur de recherche de sa suite d’applications Windows Live. Microsoft a récemment annoncé que le nouveau chatbot Bing AI serait intégré à la version stable de son navigateur web Edge.
La fonctionnalité a été introduite pour la première fois en février 2023 en tant que Preview pour les développeurs et non en tant que version publique, selon les rapports. En se rendant sur le portail en ligne du « nouveau Bing », en cliquant sur "Rejoindre la liste d'attente" et en se connectant à l'aide d'un compte Microsoft, les utilisateurs pourraient accéder immédiatement au chatbot alimenté par le GPT-4.
Bien que le nouveau Bing soit désormais disponible pour tout le monde, il est encore en version Preview et les utilisateurs doivent s'inscrire pour le tester. En le rendant exclusif à Edge, Microsoft encourage également l'utilisation de son propre navigateur, qui a récemment attiré 100 millions d'utilisateurs actifs chaque jour. Le GPT-4 d'OpenAI est disponible séparément sur ChatGPT Plus (une version payante de ChatGPT). C'est le quatrième de la série GPT.
ChatGPT, basé sur GPT-3
GPT-3 est un modèle de langage autorégressif qui utilise l'apprentissage profond pour produire des textes similaires à ceux des humains. Il s'agit du modèle de prédiction du langage de troisième génération de la série GPT-n créé par OpenAI, un laboratoire de recherche en intelligence artificielle basé à San Francisco et composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc.
ChatGPT, basé sur GPT-3, s'est déjà révélé à la fois passionnant et controversé, de nombreuses personnes ayant exprimé des craintes quant à la manière dont l'outil textuel pourrait être utilisé, mais aussi quant à la manière dont il pourrait se développer. Avec l'ajout de la vidéo et d'autres médias au mélange, ces préoccupations ne feront que s'accentuer, le potentiel de création facile de fausses vidéos étant une source d'inquiétude.
GPT-4 est multimodal et basé sur Kosmos-1
La startup OpenAI a déclaré mardi qu'elle commençait à diffuser un puissant modèle d'intelligence artificielle connu sous le nom de GPT-4, ouvrant la voie à la prolifération d'une technologie de type humain et à une concurrence accrue entre son bailleur de fonds Microsoft et Google d'Alphabet. OpenAI, qui a créé le chatbot sensationnel ChatGPT, a déclaré dans un billet de blog que sa dernière technologie était « multimodale », ce qui signifie que des images ainsi que des invites textuelles peuvent l'inciter à générer du contenu.
Microsoft a publié son document de recherche, intitulé Language Is Not All You Need: Aligning Perception with Language Models. Le modèle présente un grand modèle de langage multimodal (MLLM) appelé Kosmos-1. L'article souligne l'importance d'intégrer le langage, l'action, la perception multimodale et la modélisation du monde pour progresser vers l'intelligence artificielle. La recherche explore Kosmos-1 dans différents contextes.
Les grands modèles de langage (LLM) ont servi avec succès d'interface polyvalente pour diverses tâches de langage naturel [BMR+20]. L'interface basée sur les LLM peut être adaptée à une tâche tant que nous sommes capables de transformer l'entrée et la sortie en textes. Par exemple, l'entrée du résumé est un document et la sortie est son résumé. +Les chercheurs peuvent donc introduire le document d'entrée dans le modèle de langage, puis produire le résumé généré.
KOSMOS-1 est un grand modèle de langage multimodal (MLLM) qui peut percevoir des modalités générales, suivre des instructions (c.-à-d., apprentissage à zéro coup) et apprendre en contexte (c.-à-d., apprentissage à quelques coups). L'objectif est d'aligner la perception avec les MLLMs, de sorte que les modèles soient capables de voir et de parler. Pour être plus précis, nous suivons METALM [HSD+22] pour former le modèle KOSMOS-1 à partir de zéro.
Le modèle montre des capacités prometteuses sur diverses tâches de génération en percevant des modalités générales telles que le NLP sans OCR, l'AQ visuelle, et les tâches de perception et de vision. L'équipe de recherche de Microsoft a également présenté le modèle à un ensemble de données du test de QI de Raven pour analyser et diagnostiquer les possibilités de raisonnement non verbal des MLLM. « Les limites de ma langue signifient les limites de mon monde », Ludwig Wittgenstein.
Sam Altman, cofondateur d’OpenAI, a déclaré que GPT-4 utilisera beaucoup plus de calcul que son prédécesseur. OpenAI devrait implémenter des idées liées à l'optimalité dans GPT-4 - bien que l'on ne puisse pas prévoir dans quelle mesure, puisque leur budget est inconnu. Cependant, les déclarations d'Altman montrent qu'OpenAI devrait se concentrer sur l'optimisation d'autres variables que la taille du modèle. Trouver le meilleur ensemble d'hyperparamètres, la taille optimale du modèle et le nombre de paramètres pourrait entraîner des améliorations incroyables dans tous les benchmarks.
Selon les analystes, toutes les prédictions pour les modèles de langage tomberont à l'eau si ces approches sont combinées en un seul modèle. Altman a également déclaré que les gens ne croiraient pas à quel point les modèles peuvent être meilleurs sans être forcément plus grands. Il suggère peut-être que les efforts de mise à l'échelle sont terminés pour le moment.
GPT-4 apporte la fonction de saisie de texte et introduit l'élément visuel
Avec GPT-4, la fonction de saisie de texte sera disponible pour les abonnés de ChatGPT Plus et les développeurs de logiciels, avec une liste d'attente, tandis que la capacité de saisie d'images reste un aperçu de ses recherches. Ce lancement très attendu montre que les employés de bureau peuvent se tourner vers une IA toujours plus performante pour accomplir de nouvelles tâches, et que les entreprises technologiques sont en concurrence pour tirer parti de ces progrès.
« Nous avons passé six mois à rendre le GPT-4 plus sûr et mieux aligné. D'après nos évaluations internes, GPT-4 est 82 % moins susceptible de répondre à des demandes de contenu non autorisé et 40 % plus susceptible de produire des réponses factuelles que GPT-3.5 », OpenAI. L...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.