
Selon les nouvelles prévisions de Gartner, au cours des trois prochaines années, les modèles GenAI multimodaux enrichiront de plus en plus d'applications : 80 % des logiciels et applications d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. L'IA générative multimodale offre la possibilité d'utiliser plusieurs types d'entrées et de sorties de données, telles que des images, des vidéos, des données audio (voix), du texte et des données numériques, au sein d'un seul modèle génératif.
L'architecture et les interfaces multimodales sont une norme ouverte développée par le World Wide Web Consortium depuis 2005. Elle a été publiée en tant que recommandation du W3C le 25 octobre 2012. La recommandation Architecture et interfaces multimodales introduit une structure générique et un protocole de communication permettant aux modules d'un système multimodal de communiquer entre eux. Cette spécification propose une architecture événementielle comme cadre de référence général axé sur l'échange de données de flux de contrôle.
L’IA multimodale désigne les modèles de machine learning capables de traiter et d’intégrer des informations provenant de plusieurs modalités ou types de données : texte, images, fichiers audio et vidéo, ainsi que d’autres formes d’entrées sensorielles. Contrairement aux modèles d’IA traditionnels, généralement conçus pour gérer un seul type de données, l’IA multimodale combine et analyse différents types d’entrées de données pour améliorer la compréhension et générer des sorties plus efficaces.
L’IA multimodale rend l’IA générative plus robuste et plus utile en permettant plusieurs types d’entrées et de sorties. Dall-e, par exemple, était la première implémentation multimodale de son modèle GPT par Open AI, mais GPT-4o a également introduit des capacités multimodales pour ChatGPT. Les modèles d’IA multimodaux combinent des informations provenant de diverses sources de données et de différents médias pour offrir une compréhension plus complète et plus nuancée des données. Cela permet à l’IA d’améliorer sa prise de décision, ainsi que la précision de ses sorties.
Selon les nouvelles prévisions de Gartner, au cours des trois prochaines années, les modèles GenAI multimodaux enrichiront de plus en plus d'applications : 80 % des logiciels et applications d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Les technologies à fort impact telles que les modèles GenAI multimodaux sont au centre du radar d'impact des technologies émergentes de Gartner pour la GenAI. Les responsables produits devront prendre des décisions cruciales concernant l'investissement dans ces technologies GenAI émergentes afin de permettre aux clients d'atteindre de nouveaux sommets en termes de valeur dans leur activité.
Roberta Cozza, directrice principale de l'analyse chez Gartner, a déclaré : "Le passage aux logiciels d'entreprise multimodaux constitue une transformation fondamentale des opérations commerciales et de l'innovation. L'IA générative multimodale (GenAI) va révolutionner les applications d'entreprise en ajoutant des fonctionnalités et des capacités jusqu'alors inaccessibles, ce qui aura un impact sur des secteurs tels que la santé, la finance et l'industrie manufacturière. En améliorant les modèles linguistiques spécifiques à un domaine, elle permettra d'améliorer la précision, d'automatiser les opérations et de favoriser l'intelligence décisionnelle contextuelle, permettant ainsi à l'IA de prendre des mesures proactives dans toutes les tâches."
L'IA générative multimodale offre la possibilité d'utiliser plusieurs types d'entrées et de sorties de données, telles que des images, des vidéos, des données audio (voix), du texte et des données numériques, au sein d'un seul modèle génératif. La multimodalité augmente la facilité d'utilisation de l'IA générative en permettant aux modèles d'interagir avec des données de différentes modalités et de créer des sorties à partir de celles-ci.
Aujourd'hui, de nombreux modèles multimodaux offrent un traitement sur deux ou trois modalités (par exemple, texte-vidéo ou parole-image). Cette tendance va s'accentuer au cours des prochaines années pour inclure des modalités plus diverses et nouvelles.
"Les entreprises devraient se concentrer sur l'intégration de capacités multimodales dans leurs logiciels afin d'améliorer l'expérience utilisateur et l'efficacité opérationnelle. En tirant parti de la diversité des entrées et sorties de données offertes par la GenAI multimodale, les entreprises peuvent atteindre de nouveaux niveaux de productivité et d'innovation", a ajouté Cozza.
Source : Gartner
Et vous ?


Voir aussi :



Vous avez lu gratuitement 281 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.