Les chercheurs de Meta Platforms ont construit un nouveau modèle d'intelligence artificielle (IA), appelé Segment Anything Model (SAM), qui peut identifier et supprimer des objets de n'importe quelle image en quelques clics de souris. Des invites textuelles ont été testées pour le modèle, mais il n'a pas été publié pour le moment, a ajouté la société.Selon Meta, SAM a été entraîné sur un ensemble de données, appelé SA-1B V1.0, qui se compose de 11 millions d'images à haute résolution et à confidentialité protégée, qui ont été obtenues sous licence auprès d'une grande société de photographie. Meta affirme qu'il s'agit du plus grand ensemble de données de segmentation à ce jour.
Meta a déclaré avoir rendu cet ensemble de données public afin qu'il puisse être utilisé par d'autres pour la recherche en vision par ordinateur et l'entraînement de modèles de segmentation d'objets à usage général. En attendant, le modèle d'IA est disponible sous une licence ouverte permissive et peut être consulté via un navigateur web.
Dans un billet de blog officiel, l'équipe de recherche Segment Anything explique que les données nécessaires à la formation d'un modèle de segmentation ne sont "pas facilement disponibles" en ligne, contrairement aux images, aux vidéos et aux textes, qui le sont.
Basé sur un modèle de vision transformateur, SAM utilise un encodeur d'image pour cartographier les caractéristiques de l'image et utilise ensuite un ensemble d'encastrements rapides pour produire un masque de segmentation. Le masque segmente l'objet qui doit être supprimé de l'image. L'équipe affirme que SAM peut segmenter un objet en seulement 50 millisecondes après avoir reçu une invite.
Les transformateurs sont des réseaux neuronaux capables de comprendre le lien entre deux données séquentielles, telles que des mots dans une phrase ou des objets dans une image. Le modèle texte-image DALL-E d'OpenAI ou Stability AI de Stable Diffusion sont quelques-uns des modèles d'IA basés sur des transformateurs.
En outre, les chercheurs de Meta ont déclaré que SAM était utilisé pour annoter les images, puis que les données annotées étaient utilisées pour le mettre à jour. "Nous avons répété ce cycle de nombreuses fois pour améliorer de manière itérative le modèle et l'ensemble de données", a ajouté l'équipe de recherche.
Cependant, l'équipe s'est rendu compte que l'annotation des images n'était pas suffisante pour former un grand ensemble de données. Ils ont donc construit un moteur de données comportant trois processus. Dans le premier processus, le modèle assiste les annotateurs, tandis que dans le deuxième, une combinaison d'annotation automatique et assistée a été utilisée. Dans le troisième processus, le moteur de données a complètement automatisé la création des masques, ce qui lui a permis de s'adapter pour inclure plus de 1,1 milliard de masques de segmentation.
Bien que les images utilisées pour l'ensemble de données soient géographiquement diverses et proviennent de plusieurs pays, les chercheurs reconnaissent que certaines régions géographiques sont encore sous-représentées. En outre, pour s'assurer qu'il n'y a pas de discrimination à l'encontre de certains groupes, les chercheurs l'ont analysé pour détecter d'éventuels biais liés au sexe, à la couleur de la peau et à l'âge.
Introduction à Segment Anything : Vers le premier modèle de base pour la segmentation d'images
La segmentation, c'est-à-dire l'identification des pixels d'une image qui appartiennent à un objet, est une tâche essentielle de la vision par ordinateur et est utilisée dans un large éventail d'applications, de l'analyse de l'imagerie scientifique à la retouche de photos. Mais la création d'un modèle de segmentation précis pour des tâches spécifiques nécessite généralement un travail hautement spécialisé de la part d'experts techniques ayant accès à une infrastructure d'entraînement à l'IA et à de grands volumes de données soigneusement annotées dans le domaine.
Aujourd'hui, nous souhaitons démocratiser la segmentation en présentant le projet Segment Anything : une nouvelle tâche, un nouvel ensemble de données et un nouveau modèle pour la segmentation d'images, comme nous l'expliquons dans notre document de recherche. Nous publions à la fois notre modèle général Segment Anything (SAM) et notre jeu de données Segment Anything 1-Billion mask (SA-1B), le plus grand jeu de données de segmentation jamais réalisé, afin de permettre un large éventail d'applications et d'encourager la poursuite de la recherche sur les modèles de base pour la vision par ordinateur. Nous mettons l'ensemble de données SA-1B à disposition à des fins de recherche et le modèle Segment Anything est disponible sous une licence ouverte permissive (Apache 2.0).
Le projet Segment Anything vise à réduire les besoins en expertise de modélisation spécifique à une tâche, en calcul d'entraînement et en annotation de données personnalisées pour la segmentation d'images. Pour réaliser cette vision, notre objectif était de construire un modèle de base pour la segmentation d'images : un modèle qui s'entraîne sur des données diverses et qui peut s'adapter à des tâches spécifiques, de manière analogue à la façon dont l'entraînement est utilisé dans les modèles de traitement du langage naturel. Cependant, les données de segmentation nécessaires à l'entraînement d'un tel modèle ne sont pas facilement disponibles en ligne ou ailleurs, contrairement aux images, aux vidéos et aux textes, qui sont abondants sur Internet. C'est pourquoi, avec Segment Anything, nous avons entrepris de développer un modèle de segmentation général et rapide et de l'utiliser pour créer un ensemble de données de segmentation d'une ampleur sans précédent.
SAM a appris une notion générale de ce que sont les objets, et il peut générer des masques pour n'importe quel objet dans n'importe quelle image ou vidéo, y compris des objets et des types d'images qu'il n'a pas rencontrés pendant la formation. SAM est suffisamment général pour couvrir un large éventail de cas d'utilisation et peut être utilisé d'emblée sur de nouveaux "domaines" d'images - qu'il s'agisse de photos sous-marines ou de microscopie cellulaire - sans nécessiter de formation supplémentaire (une capacité souvent appelée transfert "zéro-coup"
À l'avenir, SAM pourrait être utilisé pour alimenter des applications dans de nombreux domaines qui nécessitent de trouver et de segmenter n'importe quel objet dans n'importe quelle image. Pour la communauté des chercheurs en IA et d'autres, SAM pourrait devenir un composant de systèmes d'IA plus importants pour une compréhension multimodale plus générale du monde, par exemple, la compréhension du contenu visuel et textuel d'une page web. Dans le domaine de l'AR/VR, SAM pourrait permettre de sélectionner un objet en fonction du regard de l'utilisateur, puis de le "soulever" en 3D. Pour les créateurs de contenu, SAM peut améliorer les applications créatives telles que l'extraction de régions d'images pour les collages ou le montage vidéo. SAM pourrait également être utilisé pour faciliter l'étude scientifique des phénomènes naturels sur Terre ou même dans l'espace, par exemple en localisant des animaux ou des objets à étudier et à suivre dans la vidéo. Nous pensons que les possibilités sont vastes et nous sommes enthousiasmés par les nombreux cas d'utilisation potentiels que nous n'avons même pas encore imaginés.
SAM : une approche généralisée de la segmentation
Auparavant, pour résoudre tout type de problème de segmentation, il existait deux catégories d'approches.
- La première, la segmentation interactive, permettait de segmenter n'importe quelle classe d'objets mais nécessitait une personne pour guider la méthode en affinant itérativement un masque.
- La seconde, la segmentation automatique, permet de segmenter des catégories d'objets...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.