L'un des principaux moteurs du progrès mathématique est la découverte de modèles et la formulation de conjectures utiles, c'est-à-dire d'énoncés que l'on soupçonne d'être vrais mais dont on n'a pas prouvé la validité dans tous les cas. Les mathématiciens ont toujours utilisé des données pour les aider dans ce processus, depuis les premières tables de nombres premiers calculées à la main par Gauss et d'autres, qui ont conduit au théorème des nombres premiers, jusqu'aux données modernes générées par ordinateur dans des cas tels que la conjecture de Birch et Swinnerton-Dyer.
L'introduction des ordinateurs pour générer des données et tester des conjectures a permis aux mathématiciens de mieux comprendre des problèmes qui étaient auparavant inaccessibles, mais si les techniques de calcul sont devenues constamment utiles dans d'autres parties du processus mathématique, les systèmes d'intelligence artificielle (IA) n'ont pas encore acquis une place similaire.
« Nous avons démontré que, lorsqu'il est guidé par l'intuition mathématique, l'apprentissage automatique fournit un Framework puissant capable de découvrir des conjectures intéressantes et prouvables dans des domaines où une grande quantité de données est disponible, ou lorsque les objets sont trop grands pour être étudiés avec des méthodes classiques », explique le mathématicien András Juhász de l'université d'Oxford au Royaume-Uni.
L'un des avantages des systèmes d'apprentissage automatique est qu'ils peuvent rechercher des modèles et des scénarios pour lesquels les programmeurs ne les ont pas spécifiquement codés : ils prennent leurs données d'apprentissage et appliquent les mêmes principes à de nouvelles situations.
Guider l'intuition mathématique avec l'IA
L'intuition du mathématicien joue un rôle extrêmement important dans la découverte des mathématiques : « Ce n'est qu'en combinant à la fois un formalisme rigoureux et une bonne intuition que l'on peut s'attaquer à des problèmes mathématiques complexes ».
Le Framework illustré dans la figure ci-dessous décrit une méthode générale par laquelle les mathématiciens peuvent utiliser des outils d'apprentissage automatique pour guider leurs intuitions concernant des objets mathématiques complexes, vérifier leurs hypothèses sur l'existence de relations et les aider à comprendre ces relations. Il s'agit d'une manière naturelle et empiriquement productive d'utiliser ces techniques bien comprises de la statistique et de l'apprentissage automatique dans le cadre du travail d'un mathématicien.
Le processus permet de guider l'intuition d'un mathématicien sur une fonction hypothétique f, en entraînant un modèle d'apprentissage automatique pour estimer cette fonction sur une distribution particulière de données PZ. Les enseignements tirés de la précision de la fonction apprise f^ et des techniques d'attribution qui lui sont appliquées peuvent aider à la compréhension du problème et à la construction d'une forme fermée f′. Le processus est itératif et interactif, plutôt qu'une seule série d'étapes.
Concrètement, elle permet de guider l'intuition d'un mathématicien sur la relation entre deux objets mathématiques X(z) et Y(z) associés à z en identifiant une fonction f^ telle que f^(X(z)) ≈ Y(z) et en l'analysant pour permettre au mathématicien de comprendre les propriétés de la relation. A titre d'exemple illustratif : soit z des polyèdres convexes, X(z) ∈ Z2×R2 le nombre de sommets et d'arêtes de z, ainsi que le volume et la surface, et Y(z) ∈ ℤ le nombre de faces de z.
La formule d'Euler stipule qu'il existe dans ce cas une relation exacte entre X(z) et Y(z) : X(z) - (-1, 1, 0, 0) + 2 = Y(z). Dans cet exemple simple, parmi beaucoup d'autres, la relation pourrait être redécouverte par les méthodes traditionnelles de génération de conjectures à partir de données1. Cependant, pour X(z) et Y(z) dans des espaces de plus grande dimension, ou de type plus complexe, comme les graphes, et pour des f^ non linéaires plus compliqués, cette approche est soit moins utile, soit totalement infaisable.
Le Framework permet de guider l'intuition des mathématiciens de deux manières : en vérifiant l'existence supposée de structures/motifs dans les objets mathématiques par l'utilisation de l'apprentissage automatique supervisé ; et en aidant à la compréhension de ces motifs par l'utilisation de techniques d'attribution. Dans la phase d'apprentissage supervisé, le mathématicien propose une hypothèse selon laquelle il existe une relation entre X(z) et Y(z). En générant un ensemble de données de paires X(z) et Y(z), il est possible d'utiliser l'apprentissage supervisé pour former une fonction f^ qui prédit Y(z), en utilisant uniquement X(z) comme entrée.
Les principaux apports de l'apprentissage automatique dans ce processus de régression sont le vaste ensemble de fonctions non linéaires possibles qui peuvent être apprises avec une quantité suffisante de données. Si f^ est plus précis que ce à quoi on pourrait s'attendre par hasard, cela indique qu'il existe peut-être une telle relation à explorer. Si c'est le cas, les techniques d'attribution peuvent aider à la compréhension de la fonction apprise f^ suffisamment pour que le mathématicien puisse conjecturer un candidat f′.
Les techniques d'attribution peuvent être utilisées pour comprendre quels aspects de f^ sont pertinents pour les prédictions de Y(z). Par exemple, de nombreuses techniques d'attribution visent à quantifier à quelle composante de X(z) la fonction f^ est sensible. La technique d'attribution que nous utilisons dans notre travail, la saillance de gradient, fait cela en calculant la dérivée des sorties de f^, par rapport aux entrées. Cela permet à un mathématicien d'identifier et de hiérarchiser les aspects du problème qui sont les plus susceptibles d'être pertinents pour la relation. Ce processus itératif peut devoir être répété plusieurs fois avant de parvenir à une conjecture viable. Au cours de ce processus, le mathématicien peut orienter le choix des conjectures vers celles qui non seulement correspondent aux données, mais qui semblent également intéressantes, plausiblement vraies et, idéalement, suggèrent une stratégie de preuve.
Le Framework ci-dessus pour aider les mathématiciens à obtenir des résultats mathématiques importants dans deux cas : découvrir et prouver l'une des premières relations entre les invariants algébriques et géométriques en théorie des nœuds et conjecturer une résolution de la conjecture d'invariance combinatoire pour les groupes symétriques4, une conjecture bien connue en théorie des représentations. Dans chaque domaine, nous démontrons comment le cadre a permis de guider avec succès le mathématicien pour obtenir le résultat. Dans chacun de ces cas, les modèles nécessaires peuvent être entraînés en quelques heures sur une machine dotée d'une seule unité de traitement graphique.
Topologie
La topologie de basse dimension est un domaine actif et influent des mathématiques. Les nœuds, qui sont des courbes simples fermées dans R3, sont l'un des objets clés étudiés, et certains des principaux objectifs du sujet sont de les classer, de comprendre leurs propriétés et d'établir des connexions avec d'autres domaines. L'un des principaux moyens d'y parvenir est d'utiliser des invariants, qui sont des quantités algébriques, géométriques ou numériques qui sont les mêmes pour deux nœuds équivalents. Ces invariants sont dérivés de nombreuses manières différentes, mais l'équipe des chercheurs s'est concentrée sur deux des principales catégories :
- les invariants algébriques ;
- les invariants hyperboliques.
Ces deux types d'invariants sont issus de disciplines mathématiques très différentes, et il est donc très intéressant d'établir des liens entre eux. Quelques exemples de ces invariants pour de petits nœuds sont présentés dans la figure ci-dessous.
L'équipe émet l'hypothèse qu'il existait une relation précédemment non découverte entre les invariants géométriques et algébriques.
Notre hypothèse était qu'il existe une relation non découverte entre les invariants hyperboliques et algébriques d'un nœud. Un modèle d'apprentissage supervisé a permis de détecter l'existence d'un modèle entre un large ensemble d'invariants géométriques et la signature σ(K), connue pour coder des informations importantes sur un nœud K, mais dont on ne savait pas auparavant qu'elle était liée à la géométrie hyperbolique.
Les caractéristiques les plus pertinentes identifiées par la technique d'attribution, présentées sur la figure 3a, étaient trois invariants de la géométrie de la cuspide, la relation étant partiellement visualisée sur la figure 3b. L'entraînement d'un second modèle avec X(z) constitué uniquement de ces mesures a permis d'obtenir une précision très similaire, ce qui suggère qu'il s'agit d'un ensemble suffisant de caractéristiques pour capturer la quasi-totalité de l'effet de la géométrie sur la signature.
Ces trois invariants étaient les parties réelles et imaginaires de la translation méridienne μ et de la translation longitudinale λ. Il existe une relation non linéaire et multivariée entre ces quantités et la signature. Après avoir été guidés pour nous concentrer sur ces invariants, l'équipe a découvert que cette relation est mieux comprise au moyen d'une nouvelle quantité, qui est liée linéairement à la signature. Elle introduit la « pente naturelle », définie comme étant la pente(K) = Re(λ/μ, où Re désigne la partie réelle.
Elle a l'interprétation géométrique suivante. On peut réaliser la courbe méridienne comme une géodésique γ sur le tore euclidien. Si l'on lance une géodésique γ⊥ à partir de celle-ci de manière orthogonale, elle finira par revenir et toucher γ en un point. Ce faisant, elle aura parcouru une longitude moins un certain multiple du méridien. Ce multiple est la pente naturelle. Il n'est pas nécessaire que ce soit un nombre entier, car le point d'arrivée de γ⊥ pourrait ne pas être le même que son point de départ. Notre conjecture initiale reliant la pente naturelle et la signature était la suivante.
a, Valeurs d'attribution pour chacune des entrées X(z). Les caractéristiques présentant des valeurs élevées sont celles auxquelles la fonction apprise est la plus sensible et sont probablement pertinentes pour une exploration plus approfondie. Les barres d'erreur de l'intervalle de confiance à 95 % portent sur 10 réentraînements du modèle. b, exemple de visualisation des caractéristiques pertinentes. La partie réelle de la translation méridienne contre la signature, colorée par la translation longitudinale.
|2σ(K)-pente(K)|<c1vol(K)+c2 (1)
Bien que cette conjecture ait été soutenue par une analyse de plusieurs grands ensembles de données échantillonnés à partir de différentes distributions, nous avons pu construire des contre-exemples en utilisant des tresses d'une forme spécifique. Par la suite, l'équipe a pu établir une relation entre la pente(K), la signature σ(K), le volume vol(K) et l'un des invariants géométriques les plus importants, le rayon d'injectivité inj(K).
Théorème : Il existe une constante c telle que, pour tout nœud hyperbolique K,
|2σ(K)-pente(K)|≤cvol(K)inj(K)-3 (2)
Il s'avère que le rayon d'injectivité a tendance à ne pas devenir très petit, même pour les nœuds de grand volume. Par conséquent, le terme inj(K)-3 n'a pas tendance à devenir très grand en pratique. Cependant, il serait clairement souhaitable d'avoir un théorème qui évite la dépendance de inj(K)-3, et nous donnons un tel résultat qui repose plutôt sur les géodésiques courtes, une autre des caractéristiques les plus saillantes, dans l'information supplémentaire. Dans l'ensemble des ensembles de données que nous avons générés, nous pouvons placer une borne inférieure de c ≥ 0,23392, et il serait raisonnable de conjecturer que c est au plus 0,3, ce qui donne une relation étroite dans les régions dans lesquelles nous avons calculé.
Le théorème ci-dessus est l'un des premiers résultats qui relie les invariants algébriques et géométriques des nœuds et a diverses applications intéressantes. Il implique directement que la signature contrôle les opérations de Dehn non hyperboliques sur le nœud et que la pente naturelle contrôle le genre des surfaces dans R4+ dont la limite est le nœud. Nous pensons que cette relation nouvellement découverte entre la pente naturelle et la signature aura de nombreuses autres applications en topologie de basse dimension. Il est surprenant qu'une connexion simple mais profonde comme celle-ci ait été négligée dans un domaine qui a été largement étudié.
Dans ce travail, nous avons démontré un cadre permettant aux mathématiciens d'utiliser l'apprentissage automatique, qui a conduit à des découvertes mathématiques dans deux disciplines distinctes : l'une des premières connexions entre la structure algébrique et géométrique des nœuds et une proposition de résolution d'une conjecture ouverte de longue date en théorie des représentations. Plutôt que d'utiliser l'apprentissage automatique pour générer directement des conjectures, nous nous efforçons de guider l'intuition très aiguisée des mathématiciens experts, ce qui donne des résultats à la fois intéressants et profonds. Il est clair que l'intuition joue un rôle important dans les performances de l'élite dans de nombreuses activités humaines.
L'apprentissage automatique est considérée comme essentielle pour les mathématiciens de haut niveau - Ramanujan a été surnommé le Prince de l'intuition34 et elle a inspiré des réflexions à des mathématiciens célèbres sur sa place dans leur domaine35,36. Les mathématiques étant une entreprise très différente et plus coopérative que le go, le rôle de l'IA dans l'aide à l'intuition est beaucoup plus naturel. Nous montrons ici qu'il existe effectivement un espace fructueux pour aider les mathématiciens dans cet aspect de leur travail.
Les chercheurs espèrent que leurs travaux conduiront à de nombreux autres partenariats entre universitaires dans les domaines des mathématiques et de l'intelligence artificielle, ouvrant ainsi la voie à des découvertes qui, autrement, resteraient inconnues. « L'intelligence artificielle est un outil extraordinaire, a déclaré Williamson. C’est l'une des premières fois que ce travail démontre son utilité pour les mathématiciens purs, comme moi ». « L'intuition peut nous mener loin, mais l'IA peut nous aider à trouver des connexions que l'esprit humain ne repère pas toujours facilement. »
Source : Nature
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
La pandémie a encouragé les entreprises à adopter l'intelligence artificielle et l'apprentissage automatique, certaines d'entre elles se sont rendu compte de leur importance au début de la crise
L'analyse topologique au secours de l'apprentissage automatique ? des chercheurs italiens diminuent fortement la quantité de données nécessaire à l'entraînement d'un modèle
« Arrêtez de tout appeler IA », dit Michael I. Jordan, un pionnier de l'apprentissage automatique, qui explique pourquoi les systèmes d'IA actuels ne sont pas réellement intelligents
L'UNESCO adopte le tout premier accord mondial sur l'éthique de l'intelligence artificielle, les droits civils et la protection des données sont bien plus importants que les profits des entreprises