La sortie de GPT-4 est imminente, comme l'a indiqué Andreas Braun, directeur technique de Microsoft Allemagne, lors d'un événement de lancement de l'IA le 9 mars 2023. L'intelligence artificielle et son application dans de multiples secteurs progressent à un rythme vertigineux compte tenu des opportunités infinies qu'elle offre aux entreprises de tous types et de tous secteurs. Jour après jour, nous assistons à l'émergence de nouveaux produits d'IA et d'apprentissage automatique sur le marché. Cependant, l'Intelligence Artificielle Multimodale est un grand trésor à découvrir, car il existe très peu de solutions professionnelles sur le marché capables de travailler dans ce domaine technologique extrêmement innovant.GPT-4 arrive la semaine prochaine : lors d'un événement d'information hybride d'environ une heure intitulé AI in Focus - Digital Kickoff le 9 mars 2023, quatre employés de Microsoft Allemagne ont présenté en détail les grands modèles de langage (LLM) comme la série GPT en tant que force perturbatrice pour les entreprises et leur offre Azure-OpenAI.
ChatGPT par exemple est un LLM. Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.
Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.
Le fait que Microsoft peaufine la multimodalité avec OpenAI ne devrait plus être un secret
L'événement de lancement s'est déroulé en allemand, en présence du média Heise. Andreas Braun, CTO Microsoft Germany et Lead Data & AI STU, a mentionné de manière plutôt décontractée la sortie imminente de GPT-4. Le fait que Microsoft peaufine la multimodalité avec OpenAI ne devrait plus être un secret depuis la sortie de Kosmos-1 au début du mois de mars.
Microsoft a publié son document de recherche, intitulé Language Is Not All You Need: Aligning Perception with Language Models. Le modèle présente un grand modèle de langage multimodal (MLLM) appelé Kosmos-1. L'article souligne l'importance d'intégrer le langage, l'action, la perception multimodale et la modélisation du monde pour progresser vers l'intelligence artificielle. La recherche explore Kosmos-1 dans différents contextes.
Les grands modèles de langage (LLM) ont servi avec succès d'interface polyvalente pour diverses tâches de langage naturel [BMR+20]. L'interface basée sur les LLM peut être adaptée à une tâche tant que nous sommes capables de transformer l'entrée et la sortie en textes. Par exemple, l'entrée du résumé est un document et la sortie est son résumé. Les chercheurs peuvent donc introduire le document d'entrée dans le modèle de langage, puis produire le résumé généré.
KOSMOS-1 est un grand modèle de langage multimodal (MLLM) qui peut percevoir des modalités générales, suivre des instructions (c.-à-d., apprentissage à zéro coup) et apprendre en contexte (c.-à-d., apprentissage à quelques coups). L'objectif est d'aligner la perception avec les MLLMs, de sorte que les modèles soient capables de voir et de parler. Pour être plus précis, nous suivons METALM [HSD+22] pour former le modèle KOSMOS-1 à partir de zéro.
Le modèle montre des capacités prometteuses sur diverses tâches de génération en percevant des modalités générales telles que le NLP sans OCR, l'AQ visuelle, et les tâches de perception et de vision. L'équipe de recherche de Microsoft a également présenté le modèle à un ensemble de données du test de QI de Raven pour analyser et diagnostiquer les possibilités de raisonnement non verbal des MLLM. « Les limites de ma langue signifient les limites de mon monde », Ludwig Wittgenstein.
« Nous présenterons le GPT-4 la semaine prochaine et nous aurons des modèles multimodaux qui offriront des possibilités complètement différentes, par exemple des vidéos », a déclaré Braun. Le directeur technique a qualifié les LLM de « changeurs de jeu », car ils apprennent aux machines à comprendre le langage naturel, ce qui leur permet de comprendre de manière statistique ce qui n'était auparavant lisible et compréhensible que par les humains. Entre-temps, la technologie a tellement progressé qu'elle « fonctionne dans toutes les langues » : Vous pouvez poser une question en allemand et obtenir une réponse en italien. Grâce à la multimodalité, Microsoft(-OpenAI) « rendra les modèles complets ».
Qu'est-ce que l'IA multimodal ?
Les gens sont capables de comprendre la signification du croisement de différents types de données [texte, vidéo, image et audio] lorsqu'ils interagissent dans un contexte donné. Par exemple, si nous voyons une photographie d'un théâtre vide, nous pouvons interpréter que le spectacle est terminé ou qu'il n'y avait pas de public. En revanche, si nous voyons la même photographie accompagnée d'un texte indiquant « La pandémie vide les théâtres », nous comprenons qu'en raison de la crise sanitaire, les spectacles culturels ont été annulés. Cet exemple nous aide à comprendre le concept de multimodalité appliqué à l'intelligence artificielle.
Les systèmes d'intelligence artificielle multimodaux se caractérisent par le traitement d'ensembles multiples de différents types de données à l'aide de méthodes basées sur l'apprentissage afin de fournir des informations plus précises, plus véridiques et plus intelligentes. En d'autres termes, l'apprentissage multimodal est capable de consolider des données indépendantes provenant de plusieurs dispositifs d'intelligence artificielle en un seul modèle et de faire des prédictions automatiquement.
Cas d'utilisation de l'IA multimodale
L'application de l'IA multimodale est extensible à tous les secteurs d'activité. De plus en plus, nous constatons que les entreprises et organisations innovantes s'intéressent à ce domaine de l'intelligence artificielle et à la manière dont elles peuvent le mettre en œuvre dans leurs stratégies de transformation numérique.
L'industrie automobile, par exemple, travaille avec l'IA multimodale dans ses systèmes d'aide à la conduite, ses assistants IHM (interface homme-machine) dans les véhicules et ses systèmes de surveillance des conducteurs conçus pour détecter le sommeil, la fatigue, les distractions ou la perte d'attention.
Il s'agit de communiquer avec notre voiture par le biais de notre voix (traitement du langage naturel), de notre image (inspection visuelle) et de nos actions. D'autres secteurs importants où l'application de l'intelligence artificielle multimodale est prometteuse sont :
- le secteur des soins de santé et l'industrie pharmaceutique, avec la possibilité d'établir des diagnostics automatiquement et immédiatement grâce à l'analyse multimodale des données d'image, des symptômes, des antécédents et de l'histoire des patients ;
- le secteur des médias et du divertissement avec ses systèmes de recommandation, la publicité personnalisée et le remarketing.
Il ne faut pas oublier le domaine de la conception de produits ou toute autre activité dans laquelle l'association entre les concepts visuels et textuels est stratégique et fondamentale. En ce sens, la multimodalité permet de générer des images à partir de descriptions textuelles et, inversement, de catégoriser instantanément des images grâce à la reconnaissance visuelle.
On le voit, les applications dans l'industrie sont infinies. Il suffit d'imaginer pour désirer et trouver l'allié technologique parfait pour mettre en œuvre de nouveaux systèmes d'IA multimodale capables de révolutionner les processus de n'importe quelle entreprise.
Perturbation des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
