La « physique intuitive » nous permet de nous engager de manière pragmatique dans le monde physique et constitue un élément clé du « bon sens » de la pensée. Les systèmes d'intelligence artificielle actuels pâlissent dans leur compréhension de la physique intuitive, en comparaison même avec les très jeunes enfants. Les chercheurs de DeepMind abordent la question du fossé entre les humains et les machines en s’appuyant sur le domaine de la psychologie du développement.
Les psychologues du développement testent la façon dont les bébés comprennent le mouvement des objets en suivant leur regard. Lorsqu'on leur montre une vidéo montrant, par exemple, une balle qui disparaît soudainement, les enfants expriment leur surprise, que les chercheurs quantifient en mesurant la durée pendant laquelle les nourrissons fixent une direction particulière.
Luis Piloto, informaticien à la société DeepMind de Londres, propriété de Google, et ses collaborateurs ont voulu mettre au point un test similaire pour l'intelligence artificielle (IA). L'équipe a entraîné un réseau neuronal, un système logiciel qui apprend en repérant des modèles dans de grandes quantités de données, avec des vidéos animées d'objets simples tels que des cubes et des balles.
Le modèle logiciel, appelé PLATO (Physics Learning through Auto-encoding and Tracking Objects), a reçu les images brutes des vidéos, mais aussi des versions mettant en évidence chaque objet de la scène. PLATO a également été conçu pour développer une représentation interne des propriétés physiques des objets, telles que leur position et leur vitesse.
Le domaine de l'intelligence artificielle (IA) a fait des progrès étonnants ces dernières années, maîtrisant un éventail croissant de tâches qui incluent désormais les jeux vidéo Atari, les jeux de société tels que les échecs et le go, des problèmes scientifiques tels que le repliement des protéines et la modélisation du langage. En même temps, le succès dans ces domaines étroits a fait apparaître de plus en plus clairement que quelque chose de fondamental manque encore. En particulier, les systèmes d'IA les plus avancés ont encore du mal à saisir les connaissances de « bon sens » qui guident la prédiction, l'inférence et l'action dans les scénarios humains quotidiens.
Dans le présent travail, les chercheurs de DeepMind se concentrent sur un domaine particulier de connaissances de sens commun : la physique intuitive, le réseau de concepts qui sous-tend le raisonnement sur les propriétés et les interactions des objets macroscopiques. La physique intuitive est fondamentale pour l'intelligence incarnée, de toute évidence parce qu'elle est essentielle à toute action pratique, mais aussi parce qu'elle fournit une base pour la connaissance conceptuelle et la représentation compositionnelle en général.
Cependant, malgré des efforts considérables, les progrès récents de l'IA n'ont pas encore permis de mettre au point un système présentant une compréhension de la physique intuitive comparable à celle des très jeunes enfants.
L'IA DeepMind a été entraîné sur des dizaines d'heures de vidéos montrant des mécanismes simples tels qu'une balle dévalant une pente ou deux balles rebondissant l'une sur l'autre, et a développé la capacité de prédire le comportement de ces objets dans différentes situations.
Il a notamment appris des modèles tels que la continuité, dans laquelle un objet suit une trajectoire ininterrompue plutôt que de se téléporter par magie d'un endroit à un autre ; la solidité, qui empêche deux objets de se pénétrer l'un l'autre ; et la persistance de la forme des objets. « À chaque étape d'un film, il fait une prédiction sur ce qui va se passer ensuite, explique Piloto. Plus on avance dans le film, plus la prédiction devient précise. »
En développant des sondes comportementales pour la recherche sur les enfants, les psychologues du développement ont fondé leur approche sur deux principes. Premièrement, le cœur de la physique intuitive repose sur un ensemble de concepts discrets (par exemple, la permanence de l'objet, la solidité de l'objet, la continuité et ainsi de suite) qui peuvent être différenciés, opérationnalisés et sondés individuellement.
En ciblant spécifiquement des concepts discrets, le travail des chercheurs de DeepMind est très différent des approches standard de l'IA pour l'apprentissage de la physique intuitive, qui mesure les progrès via des métriques de prédiction de vidéos ou d'états, la prédiction de résultats binaires, les performances de réponse aux questions ou les récompenses élevées dans les tâches d'apprentissage par renforcement.
Ces approches alternatives semblent intuitivement exiger une compréhension de certains aspects de la physique intuitive, mais elles n'opérationnalisent pas clairement ou ne sondent pas stratégiquement un ensemble explicite de ces concepts. Le deuxième principe utilisé par les psychologues du développement pour sonder les concepts physiques est que la possession d'un concept physique correspond à la formation d'un ensemble d'attentes sur la façon dont l'avenir peut se dérouler.
Si les observateurs humains possèdent le concept de permanence des objets, ils s'attendent à ce que les objets ne « disparaissent pas de l'existence » lorsqu'ils sont hors de vue. S'ils s'attendent à ce que les objets ne s'interpénètrent pas les uns les autres, ils ont le concept de solidité. S'ils s'attendent à ce que les objets ne se téléportent pas par magie d'un endroit à un autre, mais qu'ils tracent au contraire des chemins continus à travers le temps et l'espace, alors ils ont le concept de continuité.
Avec cet échafaudage conceptuel, une méthode pour mesurer la connaissance d'un concept physique spécifique émerge : le paradigme de la violation des attentes (VoE). En utilisant le paradigme VoE pour sonder un concept spécifique, les chercheurs montrent aux nourrissons des tableaux visuellement similaires (appelés sondes) qui sont soit cohérents (physiquement possibles), soit incompatibles (physiquement impossibles) avec ce concept physique.
Si les nourrissons sont plus surpris par le tableau impossible, cela prouve que leurs attentes, dérivées de leur connaissance du concept physique sondé, ont été violées. Dans ce paradigme, la surprise est mesurée par la durée du regard. La figure ci-dessous illustre le concept de continuité : les objets suivent un chemin continu dans le temps et l'espace.
Sondes adaptées de la psychologie du développement pour évaluer le concept physique de continuité
Dans le cas de la sonde possible (figure, première rangée), les chercheurs ont montré un objet qui se déplace horizontalement derrière un pilier, qui est occulté par ce pilier, qui sort ensuite de l'occlusion et qui se dirige vers un deuxième pilier, où il est à nouveau occulté derrière ce pilier et sort de l'occlusion une dernière fois. Dans la sonde impossible (Figure troisième rangée), lorsque l'objet est occulté par le premier pilier, il ne sort pas immédiatement de l'occlusion.
Au lieu de cela, après un certain délai, l'objet émerge de derrière le deuxième pilier n'apparaissant jamais dans l'espace entre les deux piliers et semblant ainsi se téléporter d'un pilier à l'autre. Des expériences menées avec des nourrissons ont montré qu'à l'âge de 2,5 mois, ils regardent plus longtemps un objet qui se téléporte entre deux écrans qu'un objet qui se déplace continuellement d'un écran à l'autre. Cette même stratégie a été utilisée par les chercheurs en développement pour accumuler des preuves solides que les nourrissons acquièrent un large éventail de concepts physiques distincts au cours de leur première année de vie.
Voici, ci-dessous, l’objectif principal de la présente recherche
Construire un modèle capable d'apprendre la physique intuitive et disséquer ce qui permet cette capacité. L’architecture s'inspire des comptes-rendus de la psychologie du développement qui postulent que trois processus centrés sur l'objet sous-tendent le comportement physique intuitif des enfants.
Les chercheurs tirent parti des récentes avancées en IA pour instancier ces systèmes dans un modèle appelé PLATO (Physics Learning through Auto-encoding and Tracking Objects). Le processus d'individuation des objets est le premier et le plus important. L'individuation des objets découpe l'entrée perceptive continue de la vision en un ensemble discret d'entités, où chaque entité possède un ensemble correspondant d'attributs.
Dans PLATO, chaque image vidéo segmentée est décomposée en un ensemble de codes d'objets via un module de perception, mettant ainsi en œuvre un mappage de l'entrée visuelle aux objets individués. PLATO n'apprend pas à segmenter la scène (cette tâche est accomplie par les masques de segmentation de la vérité du sol provenant de l'ensemble de données), mais, étant donné un objet segmenté, il apprend une représentation compressée.
Deuxièmement, le suivi d'objet (ou indexation d'objet) assigne un index à chaque objet, permettant une correspondance entre les perceptions d'objet à travers le temps et le calcul des propriétés dynamiques. Dans PLATO, les codes d'objets sont accumulés et suivis au fil des images dans un tampon d'objets. Ceci est accompli en vertu des masques de segmentation de la vérité du sol qui fournissent une correspondance entre les objets à travers les images.
La dernière composante est le traitement relationnel de ces objets suivis. Ceci est inspiré par l'idée, proposée en psychologie du développement, d'un « système de raisonnement physique », qui traite dynamiquement les représentations d'objets, produisant de nouvelles représentations qui sont influencées par leur relation et leurs interactions avec d'autres objets. Dans PLATO, nous apprenons les interactions entre la mémoire de l'objet (une mémoire à long terme à court terme (LSTM)) et l'historique des perceptions de l'objet (le tampon de l'objet) pour produire des prédictions par objet pour la prochaine image vidéo et mettre à jour la mémoire de l'objet.
Les chercheurs entrainent PLATO sur une tâche de prédiction de la prochaine étape et évalue sa performance sur la suite de sondes physiques intuitives. Bien que PLATO soit unique par son inspiration détaillée de la littérature sur le développement et le domaine auquel il est appliqué, il est important de noter qu'il existe plusieurs modèles et propositions similaires qui donnent la priorité aux représentations, aux interactions et aux calculs centrés sur l'objet.
PLATO utilise à la fois un modèle perceptuel et un modèle dynamique pour faire des prédictions par objet[/CENTER]
PLATO se compose de deux éléments : le module de perception (à gauche) et le prédicteur de dynamique (à droite). Le module de perception est utilisé pour convertir l'entrée visuelle en un ensemble de codes objets. Ces codes objets sont utilisés par les modules dynamiques pour prédire les images futures.
a, Le module de perception prend en entrée une image x et un masque de segmentation m1:K associé. En prenant le produit par éléments, on obtient un ensemble d'images représentant uniquement les parties visibles de chaque objet : x1:K.
b, Étant donné une paire image-masque, le module de perception produit un code objet zk via un module encodeur ϕ. Le code objet est décodé en une reconstruction de la paire image-masque objet via le module décodeur θ. La différence entre la reconstruction et la paire image-masque originale est utilisée pour entraîner les paramètres de ϕ et θ de sorte que zk représente les aspects informatifs de chaque paire image-masque objet.
c. Après l'entraînement, une image entière peut être reconstruite via un ensemble de codes d'objet z1:K en exécutant indépendamment chaque paire image-masque par ϕ et en décodant par θ. d. Le module de dynamique est entraîné sur des données de séquence produites en exécutant des vidéos (et leurs masques de segmentation) par le codeur pré-entraîné ϕ.
d, Le module de dynamique doit prédire les codes d'objet dans l'image suivante étant donné les codes d'objet dans l'image actuelle zt1:K et un tampon d'objet des codes dans les images précédentes z1:t-11:K. Le module dynamique comprend deux composants entraînables : un LSTM basé sur les objets et un réseau d'interaction (IN). Les prédictions sont réalisées en calculant les interactions entre chaque slot de l'état précédent du LSTM (flèche en pointillé) et tous les autres slots du LSTM ainsi que tous les codes d'objets et tampons d'entrée z1:t1:K. L'interaction résultante est utilisée pour faire des prédictions par objet et des mises à jour du LSTM.
Pour préfigurer les résultats, les chercheurs de DeepMind constatent que PLATO affiche de forts effets de VoE dans les cinq catégories de concepts-sondes de notre ensemble de données. En revanche, les modèles de comparaison soigneusement contrôlés qui n'ont pas de représentation centrée sur l'objet ne parviennent pas à obtenir des résultats supérieurs à la moyenne dans la suite d'évaluation, même lorsqu'ils sont dotés d'une capacité de calcul supérieure.
En outre, les chercheurs signalent que le modèle centré sur l'objet, lorsqu'il est doté d'une segmentation et d'un suivi des objets, peut développer des effets de VoE robustes avec une quantité étonnamment faible de données d'entraînement, équivalente à 28 heures d'expérience visuelle. Enfin, ils évaluent le comportement du modèle sur des objets et des événements non vus comme un test solide de généralisation. Ils testent PLATO, sans entraînement supplémentaire, sur un ensemble de tests développés indépendamment, et constatent qu'il continue à afficher des effets de VoE robustes dans ce contexte de généralisation.
Source : National Center for Biotechnology Information
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Des chercheurs démontrent la première utilisation humaine d'une interface cerveau-ordinateur sans fil à large bande passante, une percée pour les personnes souffrant de paralysie
Max Hodak, cofondateur de Neuralink, quitte la société d'implants cérébraux d'Elon Musk, dont un produit permettra à un patient paralysé « d'utiliser un smartphone avec son esprit »
Neuralink, l'entreprise d'Elon Musk, veut implanter des micro-puces dans des cerveaux humains et parallèlement prépare des robots qui pratiqueront ces interventions chirurgicales
Neuralink, la société d'Elon Musk confirme que des singes sont morts dans le cadre d'un projet de test de puces cérébrales, mais nie toute cruauté envers les animaux