La saturation des performances
Les modèles de langage, comme GPT-4, ont longtemps montré des capacités impressionnantes en matière de traitement du langage naturel, de génération de texte et d'assistance automatisée. À chaque nouveau modèle, la promesse d’une IA plus puissante, plus performante et plus « humaine » créait des attentes toujours plus grandes.
Cependant, The Information rapporte que le prochain modèle de langage majeur d'OpenAI, connu sous le nom de code « Orion », offre des gains de performance beaucoup moins importants que prévu. L'amélioration de la qualité entre GPT-4 et Orion est nettement moins importante que celle observée entre GPT-3 et GPT-4. De plus, Orion ne surpasse pas systématiquement son prédécesseur dans des domaines tels que la programmation, ne montrant des améliorations que dans les capacités linguistiques, selon les sources de The Information. Le modèle pourrait également coûter plus cher à exploiter dans les centres de données que les versions précédentes.
L'annonce d'Orion d'OpenAI, dont les performances ne surpasseraient que de peu celles de GPT-4, met en lumière un phénomène de saturation. De nombreux experts en IA soulignent que, malgré des architectures toujours plus sophistiquées et des modèles de plus en plus volumineux, les gains de performance observés se réduisent progressivement. La loi des rendements décroissants semble s’appliquer ici, avec une augmentation significative des ressources nécessaires pour des progrès toujours plus modestes.
L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente
L’une des raisons de cette stagnation réside dans les limites inhérentes aux modèles actuels. L’architecture de type « transformer », dominante aujourd’hui, est extrêmement puissante mais aussi gourmande en ressources et sujette à des faiblesses de compréhension contextuelle et de gestion des informations factuelles. De plus, les IA actuelles peinent encore à généraliser certains concepts et à offrir des réponses qui soient à la fois nuancées, contextuellement appropriées et alignées sur une éthique bien définie. L’effort nécessaire pour dépasser ces limites semble croître de manière exponentielle à chaque nouvelle génération, rendant chaque avancée plus difficile à atteindre.
Par ailleurs, une étude explorant les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique, a conclu que les modèles utiliseront la totalité des données textuelles humaines publiques à un moment donné entre 2026 et 2032.
D'un autre côté, les chercheurs d'OpenAI expliquent ce ralentissement par l'insuffisance de données d'entraînement de haute qualité. La plupart des textes et des données accessibles au public ont déjà été utilisés. En réponse, OpenAI a créé une « Foundations Team » dirigée par Nick Ryder.
Cette initiative s'inscrit dans le droit fil de la déclaration faite en juin par le PDG Sam Altman, selon laquelle, bien que les données existent en quantité suffisante, l'accent sera mis sur l'apprentissage à partir d'une quantité moindre de données. L'entreprise prévoit d'utiliser des données synthétiques - du matériel d'entraînement généré par des modèles d'IA - pour combler cette lacune.
The Information note qu'Orion s'est déjà partiellement entraîné sur des données synthétiques provenant de GPT-4 et du nouveau modèle de « raisonnement » o1 d'OpenAI. Toutefois, cette approche présente le risque que le nouveau modèle « ressemble simplement à ces anciens modèles dans certains aspects », selon un employé d'OpenAI.
L’effet sur l’industrie de l’IA
Ce ralentissement n’affecte pas seulement OpenAI, mais l’ensemble de l’industrie de l’IA.
Selon des sources de certains médias, le futur Gemini 2.0 de Google n'atteint pas ses objectifs internes. Anthropic aurait arrêté le développement de la version 3.5 de son produit phare, Opus, et publié à la place une version améliorée de Sonnet, peut-être pour ne pas décevoir les utilisateurs et les investisseurs.
Le rapport sur l'état de l'IA révèle que l'avance d'OpenAI sur les autres entreprises d'IA a largement disparu. Claude 3.5 "Sonnet" d'Anthropic, Gemini 1.5 de Google, Grok 2 de X et même le modèle open-source Llama 3.1 405 B de Meta ont égalé, ou dépassé de justesse sur certains benchmarks, GPT-4o d'OpenAI.
Le fait que les modèles à code source ouvert aient rattrapé les modèles propriétaires à un milliard de dollars au cours des 18 derniers mois témoigne également de ce plafonnement à l'échelle du secteur. Ces progrès seraient peu probables si les grandes entreprises technologiques pouvaient convertir efficacement leurs investissements massifs en une meilleure performance de l'IA.
De son côté, Ed Zitron, critique fréquent de l'IA, a estimé qu'OpenAI est une mauvaise entreprise, notant qu'il y a « quelques raisons de s'inquiéter ». Selon lui, OpenAI n'a rien eu de vraiment important depuis le lancement de GPT-3.5, et son récent modèle o-1 n'a pas été particulièrement impressionnant. Il serait également beaucoup plus coûteux à utiliser, et OpenAI n'arrive même pas à trouver un cas d'utilisation significatif. De plus, les produits d'OpenAI sont de plus en plus banalisés, Google, Meta, Amazon et même Microsoft construisant des modèles d'IA générative pour les concurrencer. Pire encore, ces modèles utilisent tous des données d'entraînement identiques, ce qui rend leurs résultats de plus en plus similaires.
Face à des améliorations de plus en plus marginales, les entreprises technologiques sont confrontées à une question fondamentale : est-il rentable de continuer à investir massivement dans le développement de modèles de langage de plus en plus volumineux et complexes, pour des gains de performance de plus en plus faibles ? De nombreux acteurs pourraient être tentés de rediriger leurs efforts vers des applications plus spécifiques de l’IA, ou d’explorer des approches alternatives, comme les modèles hybrides qui combinent apprentissage supervisé et raisonnements basés sur des règles, ou encore les modèles multi-agents qui permettent une coopération entre IA.
Le PDG d'OpenAI demeure confiant quant à la possibilité d'atteindre l'intelligence artificielle générale
Néanmoins, dans une récente interview, le PDG d'OpenAI, Sam Altman, est resté optimiste. Il a déclaré que la voie vers l'intelligence artificielle générale (AGI) était toute tracée et que ce qu'il fallait, c'était une utilisation créative des modèles existants. Altman pourrait faire référence à la combinaison des LLM avec des approches de raisonnement telles que o1 et l'IA agentique.
Noam Brown, éminent développeur d'IA à l'OpenAI et ancien employé de Meta qui a contribué à la création de o1, affirme que la déclaration d'Altman reflète l'opinion de la plupart des chercheurs de l'OpenAI. Le nouveau modèle o1 vise à créer de nouvelles opportunités de mise à l'échelle. Il met l'accent non plus sur la formation, mais sur l'inférence, c'est-à-dire le temps de calcul dont disposent les modèles d'IA pour accomplir des tâches. Brown estime que cette approche constitue une « nouvelle dimension pour la mise à l'échelle ».
Mais elle nécessitera des milliards de dollars et une importante consommation d'énergie. Il s'agit là d'une question clé pour l'industrie dans les mois à venir : La construction de modèles d'IA toujours plus puissants - et des énormes centres de données qu'ils nécessitent - a-t-elle un sens économique et environnemental ? OpenAI semble le penser.
François Chollet, expert en intelligence artificielle chez Google, a critiqué la mise à l'échelle des modèles de langage pour les tâches mathématiques. Il a qualifié de « particulièrement obtus » le fait de citer les progrès réalisés dans les tests mathématiques comme preuve de l'existence de l'AGI.I've heard people claim that Sam is just drumming up hype, but from what I've seen everything he's saying matches the ~median view of @OpenAI researchers on the ground. https://t.co/nd0itSdQLw
— Noam Brown (@polynoamial) November 9, 2024
Chollet affirme que les données empiriques montrent que l'apprentissage profond et les grands modèles de langage ne peuvent pas résoudre les problèmes mathématiques de manière indépendante. Ils ont plutôt besoin de méthodes de recherche discrète, c'est-à-dire d'approches systématiques qui vérifient différents chemins de solution plutôt que de prédire des réponses probables comme le font les modèles de langage.
Il a également critiqué l'utilisation de « LLM » comme terme de marketing pour toutes les avancées actuelles en matière d'IA, même lorsqu'elles ne sont pas liées aux modèles de langage. Il a souligné que l'intégration de Gemini dans AlphaProof de Google Deepmind était « essentiellement cosmétique et à des fins de marketing ».
Perspectives et innovations à venirWhen we develop AI systems that can actually reason, they will involve deep learning (as one of two major components, the other one being discrete search), and some people will say that this "proves" that DL can reason.
— François Chollet (@fchollet) November 9, 2024
No, it will have proven the thesis that DL is not enough,…
Dans un contexte où les progrès techniques ralentissent, le secteur pourrait entrer dans une phase de consolidation. Celle-ci serait axée sur l’optimisation des modèles actuels, sur leur applicabilité à des contextes industriels précis et sur la réflexion éthique et réglementaire. Cette période de consolidation pourrait être bénéfique, offrant l’occasion de renforcer la fiabilité des modèles existants, de perfectionner les techniques de modération des IA, et d’explorer des applications à valeur ajoutée réelle.
Bien que la stagnation actuelle soit indéniable, elle ne signifie pas pour autant une impasse définitive pour le secteur. Plusieurs pistes de recherche, encore émergentes, pourraient raviver la dynamique d'innovation. Parmi elles, la recherche de modèles plus « frugaux », capables de performances optimales avec moins de données et de puissance de calcul, et l'exploration de l'IA quantique, qui pourrait révolutionner la manière dont les modèles sont entraînés et optimisés.
Conclusion
L'industrie des modèles de langage, bien que marquant un ralentissement, reste un secteur à fort potentiel d'innovation. L'annonce d'Orion, avec ses progrès modestes par rapport à GPT-4, illustre un moment charnière dans l’évolution de l’IA. Cette période pourrait s'avérer décisive pour encourager des approches alternatives et pour recentrer les efforts sur des applications plus pratiques et socialement responsables. Dans les années à venir, l'IA devra se réinventer pour retrouver son élan et répondre aux attentes croissantes de la société.
Source : vidéo YouTube dans le texte
Et vous ?
Pourquoi, selon vous, observe-t-on cette stagnation dans les performances des modèles de langage ? Est-ce un manque de technologie, de données, ou des limites théoriques encore non résolues ?
La loi des rendements décroissants signifie-t-elle que nous avons atteint une limite naturelle dans la compréhension du langage par les machines, ou est-ce simplement une pause avant une nouvelle percée ?
Est-il encore justifié de continuer à investir massivement dans le développement de modèles toujours plus volumineux, alors que les gains sont de plus en plus marginaux ? Devrait-on orienter ces ressources vers d’autres formes d’IA ou des applications plus ciblées ?
Quels types d’approches pourraient renouveler la dynamique dans l’industrie de l’IA ? Pensez-vous que des modèles hybrides, l'IA quantique ou les modèles multi-agents représentent des alternatives viables aux architectures actuelles ?
La relative stagnation dans les progrès des modèles de langage pourrait-elle freiner l’adoption de l’IA dans des secteurs non technologiques ? Comment l’industrie pourrait-elle rassurer les utilisateurs finaux quant à la pertinence et à la sécurité de ces technologies ?