
pour lesquels les programmeurs ne les ont pas spécifiquement codés
Depuis les années 1960, les mathématiciens ont utilisé des ordinateurs pour les aider à découvrir des modèles et à formuler des conjectures, la plus célèbre étant la conjecture de Birch et Swinnerton-Dyer, un problème du Prix du Millénaire. Dans une étude récemment publiée, une équipe de chercheurs a utilisé des systèmes d'intelligence artificielle pour dénouer certains problèmes mathématiques de longue date. Elle présente un processus d'utilisation de l'apprentissage automatique pour découvrir des modèles et des relations potentiels entre les objets mathématiques, les comprendre avec des techniques d'attribution et utiliser ces observations pour guider l'intuition et proposer des conjectures.
L'un des principaux moteurs du progrès mathématique est la découverte de modèles et la formulation de conjectures utiles, c'est-à-dire d'énoncés que l'on soupçonne d'être vrais mais dont on n'a pas prouvé la validité dans tous les cas. Les mathématiciens ont toujours utilisé des données pour les aider dans ce processus, depuis les premières tables de nombres premiers calculées à la main par Gauss et d'autres, qui ont conduit au théorème des nombres premiers, jusqu'aux données modernes générées par ordinateur dans des cas tels que la conjecture de Birch et Swinnerton-Dyer.
L'introduction des ordinateurs pour générer des données et tester des conjectures a permis aux mathématiciens de mieux comprendre des problèmes qui étaient auparavant inaccessibles, mais si les techniques de calcul sont devenues constamment utiles dans d'autres parties du processus mathématique, les systèmes d'intelligence artificielle (IA) n'ont pas encore acquis une place similaire.
« Nous avons démontré que, lorsqu'il est guidé par l'intuition mathématique, l'apprentissage automatique fournit un Framework puissant capable de découvrir des conjectures intéressantes et prouvables dans des domaines où une grande quantité de données est disponible, ou lorsque les objets sont trop grands pour être étudiés avec des méthodes classiques », explique le mathématicien András Juhász de l'université d'Oxford au Royaume-Uni.
L'un des avantages des systèmes d'apprentissage automatique est qu'ils peuvent rechercher des modèles et des scénarios pour lesquels les programmeurs ne les ont pas spécifiquement codés : ils prennent leurs données d'apprentissage et appliquent les mêmes principes à de nouvelles situations.
Guider l'intuition mathématique avec l'IA
L'intuition du mathématicien joue un rôle extrêmement important dans la découverte des mathématiques : « Ce n'est qu'en combinant à la fois un formalisme rigoureux et une bonne intuition que l'on peut s'attaquer à des problèmes mathématiques complexes ».
Le Framework illustré dans la figure ci-dessous décrit une méthode générale par laquelle les mathématiciens peuvent utiliser des outils d'apprentissage automatique pour guider leurs intuitions concernant des objets mathématiques complexes, vérifier leurs hypothèses sur l'existence de relations et les aider à comprendre ces relations. Il s'agit d'une manière naturelle et empiriquement productive d'utiliser ces techniques bien comprises de la statistique et de l'apprentissage automatique dans le cadre du travail d'un mathématicien.
Le processus permet de guider l'intuition d'un mathématicien sur une fonction hypothétique f, en entraînant un modèle d'apprentissage automatique pour estimer cette fonction sur une distribution particulière de données PZ. Les enseignements tirés de la précision de la fonction apprise f^ et des techniques d'attribution qui lui sont appliquées peuvent aider à la compréhension du problème et à la construction d'une forme fermée f′. Le processus est itératif et interactif, plutôt qu'une seule série d'étapes.
Concrètement, elle permet de guider l'intuition d'un mathématicien sur la relation entre deux objets mathématiques X(z) et Y(z) associés à z en identifiant une fonction f^ telle que f^(X(z)) ≈ Y(z) et en l'analysant pour permettre au mathématicien de comprendre les propriétés de la relation. A titre d'exemple illustratif : soit z des polyèdres convexes, X(z) ∈ Z2×R2 le nombre de sommets et d'arêtes de z, ainsi que le volume et la surface, et Y(z) ∈ ℤ le nombre de faces de z.
La formule d'Euler stipule qu'il existe dans ce cas une relation exacte entre X(z) et Y(z) : X(z) - (-1, 1, 0, 0) + 2 = Y(z). Dans cet exemple simple, parmi beaucoup d'autres, la relation pourrait être redécouverte par les méthodes traditionnelles de génération de conjectures à partir de données1. Cependant, pour X(z) et Y(z) dans des espaces de plus grande dimension, ou de type plus complexe, comme les graphes, et pour des f^ non linéaires plus compliqués, cette approche est soit moins utile, soit totalement infaisable.
Le Framework permet de guider l'intuition des mathématiciens de deux manières : en vérifiant l'existence supposée de structures/motifs dans les objets mathématiques par l'utilisation de l'apprentissage automatique supervisé ; et en aidant à la compréhension de ces motifs par l'utilisation de techniques d'attribution. Dans la phase d'apprentissage supervisé, le mathématicien propose une hypothèse selon laquelle il existe une relation entre X(z) et Y(z). En générant un ensemble de données de paires X(z) et Y(z), il est possible d'utiliser l'apprentissage supervisé pour former une fonction f^ qui prédit Y(z), en utilisant uniquement X(z) comme entrée.
Les principaux apports de l'apprentissage automatique dans ce processus de régression sont le vaste ensemble de fonctions non linéaires possibles qui peuvent être apprises avec une quantité suffisante de données. Si f^ est plus précis que ce à quoi on pourrait s'attendre par hasard, cela indique qu'il existe peut-être une telle relation à explorer. Si c'est le cas, les techniques d'attribution peuvent aider à la compréhension de la fonction apprise f^ suffisamment pour que le mathématicien puisse conjecturer un candidat f′.
Les techniques d'attribution peuvent être utilisées pour comprendre quels aspects de f^ sont pertinents pour les prédictions de Y(z). Par exemple, de nombreuses techniques d'attribution visent à quantifier à quelle composante de X(z) la fonction f^ est sensible. La technique d'attribution que nous utilisons dans notre travail, la saillance de gradient, fait cela en calculant la dérivée des sorties de f^, par rapport aux entrées. Cela permet à un mathématicien d'identifier et de hiérarchiser les aspects du problème qui sont les plus susceptibles d'être pertinents pour la relation. Ce processus itératif peut devoir être répété plusieurs fois avant de parvenir à une conjecture viable. Au cours de ce processus, le mathématicien peut orienter le choix des conjectures vers celles qui non seulement correspondent aux données, mais qui semblent également intéressantes, plausiblement vraies et, idéalement, suggèrent une stratégie de preuve.
Le Framework ci-dessus pour aider les mathématiciens à obtenir des résultats mathématiques importants dans deux cas : découvrir et prouver l'une des premières relations entre les invariants algébriques et géométriques en théorie des nœuds et conjecturer une résolution de la conjecture d'invariance combinatoire pour les groupes symétriques4, une conjecture bien connue en théorie des représentations. Dans chaque domaine, nous démontrons comment le cadre a permis de guider avec succès le mathématicien pour obtenir le résultat. Dans chacun de ces cas, les modèles nécessaires peuvent être entraînés en quelques heures sur une machine dotée d'une seule unité de traitement graphique.
Topologie
La topologie de basse dimension est un domaine actif et influent des mathématiques. Les nœuds, qui sont des courbes simples fermées dans R3, sont l'un des objets clés étudiés, et certains des principaux objectifs du sujet sont de les classer, de comprendre leurs propriétés et d'établir des connexions avec d'autres domaines. L'un des principaux moyens d'y parvenir est d'utiliser des invariants, qui sont des quantités algébriques, géométriques ou numériques qui sont les mêmes pour deux nœuds équivalents. Ces invariants sont dérivés de nombreuses manières différentes, mais l'équipe des chercheurs s'est concentrée sur deux des principales catégories :
- les invariants algébriques ;
- les invariants hyperboliques.
Ces deux types d'invariants sont issus de disciplines mathématiques très différentes, et il est donc très intéressant d'établir des liens entre eux. Quelques exemples de ces invariants pour de petits nœuds sont présentés dans la figure ci-dessous.
L'équipe émet l'hypothèse qu'il existait une relation précédemment non découverte entre les invariants géométriques et algébriques.
Notre hypothèse était qu'il existe une relation non découverte entre les invariants hyperboliques et algébriques d'un nœud. Un modèle d'apprentissage supervisé a permis de détecter l'existence d'un modèle entre un large ensemble d'invariants géométriques et la signature σ(K), connue pour coder des informations importantes sur un nœud K, mais dont on ne savait pas auparavant qu'elle était liée à la géométrie hyperbolique.
Les caractéristiques les plus pertinentes identifiées par la technique d'attribution, présentées sur la figure 3a, étaient trois invariants de la géométrie de la cuspide, la relation étant partiellement visualisée sur la figure 3b. L'entraînement d'un second modèle avec X(z) constitué uniquement de ces mesures a permis d'obtenir une précision très similaire, ce qui suggère qu'il s'agit d'un ensemble suffisant de caractéristiques pour capturer la quasi-totalité de l'effet de la géométrie sur la signature.
Ces trois invariants étaient les parties réelles et imaginaires de la translation méridienne μ et de la translation longitudinale λ. Il existe une relation non linéaire et multivariée entre ces quantités et la signature. Après avoir été guidés pour nous concentrer sur ces invariants, l'équipe a découvert que cette relation est mieux comprise au moyen d'une nouvelle quantité, qui est liée linéairement à la signature. Elle introduit la « pente naturelle », définie comme étant la pente(K) = Re(λ/μ

Elle a l'interprétation géométrique suivante. On peut réaliser la courbe méridienne comme une géodésique γ sur le tore euclidien. Si l'on lance une géodésique γ⊥ à partir de celle-ci de manière orthogonale, elle finira par revenir et toucher γ en un point. Ce faisant, elle aura parcouru une longitude moins un certain multiple du méridien. Ce multiple est la pente naturelle. Il n'est pas nécessaire que ce soit un nombre entier, car le point d'arrivée de γ⊥ pourrait ne pas être le même que son point de départ. Notre conjecture initiale reliant la pente naturelle et la signature était la suivante.
a, Valeurs d'attribution pour chacune des entrées X(z). Les caractéristiques présentant des valeurs élevées sont celles auxquelles la fonction apprise est la plus sensible et sont probablement pertinentes pour une exploration plus approfondie. Les barres d'erreur de l'intervalle de confiance à 95 % portent sur 10 réentraînements du modèle. b, exemple de visualisation des caractéristiques pertinentes. La partie réelle de la translation méridienne contre la signature, colorée par la translation longitudinale.
|2σ(K)-pente(K)|<c1vol(K)+c2 (1)
Bien que cette conjecture ait été soutenue par une analyse de plusieurs grands ensembles de données échantillonnés à partir de différentes distributions, nous avons pu construire des contre-exemples en utilisant des tresses d'une forme spécifique. Par la suite, l'équipe a pu établir une relation entre la pente(K), la signature σ(K), le volume vol(K) et l'un des invariants géométriques les plus importants, le rayon d'injectivité inj(K).
Théorème : Il existe une constante c telle que,...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.