Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces,

Selon des chercheurs

Le 12 mars 2024 à 12:57, par Bruno

238PARTAGES

Des avancées récentes dans la multiplication matricielle promettent d'accélérer les modèles d'intelligence artificielle (IA). Des chercheurs ont découvert une nouvelle méthode pour multiplier de grandes matrices plus efficacement, éliminant une inefficacité jusqu'alors inconnue. Cette découverte pourrait avoir un impact significatif sur des domaines clés de l'IA tels que la reconnaissance vocale, la vision par ordinateur et les chatbots. En utilisant une approche théorique plutôt que des solutions pratiques immédiates, cette recherche vise à réduire l'exposant de complexité, ω, rapprochant ainsi la multiplication matricielle de la valeur théorique idéale de 2.

Ces progrès pourraient conduire à des temps de formation plus rapides pour les modèles d'IA, une exécution plus efficace des tâches, et potentiellement rendre les technologies d'IA plus accessibles en réduisant la puissance de calcul et la consommation d'énergie nécessaires. Bien que des limites actuelles existent, ces avancées représentent la plus grande amélioration dans le domaine depuis plus d'une décennie, ouvrant la voie à des modèles d'IA plus rapides et plus écoénergétiques à l'avenir.

En mathématiques, et plus particulièrement en algèbre linéaire, la multiplication matricielle est une opération binaire qui produit une matrice à partir de deux matrices. Pour une multiplication matricielle, le nombre de colonnes de la première matrice doit être égal au nombre de lignes de la seconde matrice. La matrice résultante, appelée produit matriciel, comporte le nombre de lignes de la première matrice et le nombre de colonnes de la seconde. Le produit des matrices A et B est noté AB.

La multiplication matricielle a été décrite pour la première fois par le mathématicien français Jacques Philippe Marie Binet en 1812 pour représenter la composition de cartes linéaires représentées par des matrices. La multiplication matricielle est donc un outil de base de l'algèbre linéaire et, en tant que tel, a de nombreuses applications dans de nombreux domaines des mathématiques, ainsi que dans les mathématiques appliquées, les statistiques, la physique, l'économie et l'ingénierie. Le calcul des produits matriciels est une opération centrale dans toutes les applications informatiques de l'algèbre linéaire.

En novembre dernier, trois chercheurs, à savoir Ran Duan et Renfei Zhou de l'université de Tsinghua, ainsi que Hongxun Wu de l'université de Californie à Berkeley, ont dévoilé des résultats innovants lors de la conférence Foundations of Computer Science. Bien que l'amélioration en question soit relativement modeste, François Le Gall l'a qualifiée de « conceptuellement plus importante que les précédentes », soulignant qu'elle révèle une source d'améliorations potentielles jusqu'alors non explorée. Ces découvertes ont été exploitées dans un second article publié en janvier, détaillant la manière dont la multiplication matricielle peut être encore optimisée grâce à cette approche novatrice.

« Il s'agit d'une avancée technique majeure », a déclaré William Kuszmaul, informaticien théoricien à l'université de Harvard. « C'est la plus grande amélioration de la multiplication matricielle que nous ayons vue depuis plus d'une décennie.

Plongez-vous dans la matrice

Cela peut sembler un problème obscur, mais la multiplication matricielle est une opération informatique fondamentale. Elle est incorporée dans une grande partie des algorithmes que les gens utilisent chaque jour pour toute une série de tâches, de l'affichage de graphiques informatiques plus nets à la résolution de problèmes logistiques dans la théorie des réseaux. Et comme dans d'autres domaines de l'informatique, la vitesse est primordiale. Même de légères améliorations pourraient éventuellement conduire à des économies significatives de temps, de puissance de calcul et d'argent. Mais pour l'instant, les théoriciens s'intéressent surtout à la rapidité du processus.

La méthode traditionnelle de multiplication de deux matrices n par n - en multipliant les nombres de chaque ligne de la première matrice par les nombres des colonnes de la seconde - nécessite n³ multiplications distinctes. Pour des matrices 2 par 2, cela représente 2³ ou 8 multiplications.

En 1969, le mathématicien Volker Strassen a révélé une procédure plus compliquée permettant de multiplier des matrices 2 par 2 en seulement sept étapes multiplicatives et 18 additions. Deux ans plus tard, l'informaticien Shmuel Winograd a démontré que sept est effectivement le minimum absolu pour les matrices 2 par 2.

Strassen a exploité cette même idée pour montrer que toutes les grandes matrices n-par-n peuvent également être multipliées en moins de n3 étapes. Un élément clé de cette stratégie implique une procédure appelée décomposition, qui consiste à diviser une grande matrice en sous-matrices successivement plus petites, qui peuvent être aussi petites que 2 par 2 ou même 1 par 1 (il ne s'agit que de nombres simples).

Selon Virginia Vassilevska Williams, informaticienne au Massachusetts Institute of Technology et coauteur de l'un des nouveaux articles, la raison d'être de la division d'une matrice géante en minuscules morceaux est assez simple. « Il est difficile pour un humain de regarder une grande matrice (disons de l'ordre de 100 par 100) et de penser au meilleur algorithme possible », a déclaré Virginia Vassilevska Williams. Même les matrices de 3 x 3 n'ont pas encore été entièrement résolues. « Néanmoins, il est possible d'utiliser un algorithme rapide déjà développé pour les petites matrices afin d'obtenir un algorithme rapide pour les matrices plus grandes. »

La clé de la rapidité, ont déterminé les chercheurs, est de réduire le nombre d'étapes de multiplication, en abaissant l'exposant de n³ (pour la méthode standard) autant qu'ils le peuvent. La valeur la plus basse possible, n2, correspond en fait au temps qu'il faut pour écrire la réponse. Les informaticiens désignent cet exposant par le terme oméga, ω, n^ω étant le nombre le plus faible possible d'étapes nécessaires pour multiplier avec succès deux matrices...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces,

Selon des chercheurs

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces, Selon des chercheurs

Les progrès de la multiplication matricielle pourraient conduire à des modèles d'IA plus rapides et plus efficaces,

Selon des chercheurs