Microsoft a récemment présenté un grand modèle de langage (LLM) appelé Orca 13B et a mis en avant ses capacités de raisonnement. Malgré sa taille relativement petite, 13 milliards de paramètres, Orca serait capable de développer une compréhension plus profonde du processus de raisonnement. Il s'agit là d'un changement important par rapport aux modèles d'IA traditionnels, qui se concentrent souvent sur l'imitation du style des grands modèles fondamentaux (Large Foundation Models - LFM), mais ne parviennent pas à saisir leur processus de raisonnement. Orca serait en mesure de rivaliser avec les modèles d'IA populaires ChatGPT et GPT-4 d'OpenAI.
Orca 13B : un modèle de langage basé sur l'apprentissage progressif
Les grands modèles fondamentaux (Large Foundation Models - LFM) tels que ChatGPT et GPT-4 ont démontré d'impressionnantes capacités d'apprentissage à partir de zéro sur un large éventail de tâches. Leur succès peut être attribué à la mise à l'échelle de la taille des modèles et des ensembles de données, ainsi qu'au processus de réglage fin visant à les aligner sur le contenu de l'utilisateur. Alors que ces modèles continuent de prospérer, une question intrigante se pose : ces modèles peuvent-ils superviser leurs propres comportements ou d'autres modèles sans trop d'intervention humaine ? Microsoft s'est penché sur la question et sa réponse est Orca 13B.
Orca 13B est un modèle de langage mis au point par une équipe de la division Microsoft AI. L'approche d'apprentissage progressif d'Orca 13B est la pierre angulaire de son succès. Orca apprend des traces d'explications complexes et des processus de pensée étape par étape provenant de GPT-4. Cette approche innovante améliore de manière significative les performances des modèles d'instruction de pointe existants, en relevant les défis liés à la diversité des tâches, à la complexité des requêtes et à la mise à l'échelle des données. Selon les chercheurs de Microsoft, cette approche améliore la capacité d'Orca à générer des réponses précises et cohérentes.
Elle lui permet également de comprendre le contexte et les nuances des différents scénarios, améliorant ainsi ses performances globales. En outre, le rôle de ChatGPT en tant qu'assistant de l'enseignant est crucial pour fournir un environnement d'apprentissage favorable à Orca. En fournissant des conseils et un retour d'information, ChatGPT aide Orca à affiner son processus d'apprentissage et à améliorer sa compréhension des instructions complexes. Cela est un facteur clé dans la capacité d'Orca à imiter le processus de raisonnement des LFM. L'équipe de recherche utilise la collection Flan 2022 pour améliorer encore le processus d'apprentissage d'Orca.
Les chercheurs prélèvent des tâches dans cette vaste collection afin de garantir un mélange varié de défis. Ces tâches sont ensuite sous-échantillonnées pour générer des invites complexes, qui servent de requêtes aux LFM. Cette approche crée un ensemble de formation riche et varié qui facilite l'apprentissage robuste de l'Orca, lui permettant de s'attaquer efficacement à un large éventail de tâches. Ils ont évalué les capacités d'Orca, notamment ses capacités de génération, de raisonnement et de compréhension. Ils comparent les performances d'Orca à des bases solides telles que Text-Davinci-003, ChatGPT, GPT-4 et Vicuna.
Microsoft prévoit de rendre son modèle d'IA Orca 13B open source
Dans les benchmarks complexes de raisonnement à partir de zéro comme Big-Bench Hard (BBH) et AGIEval, l'équipe note qu'Orca surpasse les modèles conventionnels à base d'instructions de pointe comme Vicuna-13B de plus de 100 % et 42 % respectivement. Orca atteint la parité avec ChatGPT sur le benchmark BBH, ce qui est un exploit remarquable compte tenu de la différence de taille entre les deux modèles. Selon les données fournies par OpenAI sur le modèle, ChatGPT compte 175 milliards de paramètres. Cela démontre la capacité d'Orca à rivaliser avec des modèles plus grands en matière de performances, malgré sa taille plus petite.
Orca affiche également des performances compétitives dans les examens professionnels et académiques tels que le SAT, le LSAT, le GRE et le GMAT. C'est d'autant plus impressionnant que ces examens sont conçus pour tester un large éventail de compétences, dont la pensée critique, la résolution de problèmes et le raisonnement analytique. Le fait qu'Orca soit capable d'atteindre un niveau compétitif dans ces examens est une indication claire de ses capacités avancées. Bien qu'il soit un modèle plus petit que des géants comme ChatGPT et GPT-4 (son nombre de paramètres reste toujours inconnu), Orca parvient à atteindre le même niveau de performance.
Il s'agit d'une avancée technologique significative, car elle démontre que des modèles puissants peuvent être construits par de petites équipes, rendant ainsi le développement de l'IA plus accessible. Sa taille a également des répercussions sur son efficacité et son évolutivité. Orca nécessite moins de ressources informatiques pour s'entraîner et fonctionner, ce qui en fait une solution plus durable et plus rentable pour le développement de l'IA. En outre, l'équipe de recherche affirme que la taille réduite du modèle de langage Orca facilite sa mise à l'échelle et son adaptation à différentes applications, ce qui accroît sa polyvalence et son utilité.
Par ailleurs, la décision de Microsoft d'ouvrir le code source d'Orca 13B dans les mois à venir est considérée comme un développement important pour la communauté de l'IA. Cela permettra aux utilisateurs de disséquer Orca, d'apprendre à développer et à entraîner leurs propres modèles, et même d'améliorer Orca avec leurs propres contributions et idées. La publication en open source d'Orca reflète également l'engagement de Microsoft en faveur de l'IA et sa conviction que l'IA peut transformer la technologie. À en croire les commentaires sur le sujet, de nombreuses personnes attendent cette publication avec impatience.
Cas d'utilisation et applications potentielles pour Orca 13B
L'introduction d'Orca et son application réussie à l'amélioration des modèles adaptés à l'enseignement ouvrent des perspectives passionnantes pour la recherche future. Alors que les LFM continuent d'évoluer, les mécanismes d'apprentissage autosupervisés et la capacité de superviser d'autres modèles avec une intervention humaine minimale pourraient révolutionner le domaine de l'IA. En affinant le processus d'apprentissage à partir de traces d'explications complexes, les chercheurs peuvent continuer à améliorer les performances des modèles dans diverses tâches, ce qui permettra de faire progresser le traitement du langage naturel (NLP).
Orca 13B dans la recherche universitaire
Dans le domaine de la recherche universitaire, Orca 13B peut changer la donne. Sa capacité à imiter le processus de raisonnement des LFM en fait un outil précieux pour les chercheurs. Par exemple, dans le domaine des sciences sociales, Orca peut être utilisé pour analyser des phénomènes sociaux complexes et générer des explications pertinentes. De même, dans le domaine des sciences naturelles, Orca peut aider les chercheurs à comprendre des processus naturels complexes en fournissant des explications étape par étape de ces processus.
Orca 13B dans le domaine de l'analyse commerciale
Dans le monde des affaires, Orca 13B peut révolutionner la façon dont les entreprises analysent leurs données. En tirant parti des capacités de raisonnement d'Orca, les entreprises peuvent obtenir des informations plus approfondies sur leurs activités et prendre des décisions plus éclairées. Par exemple, Orca peut être utilisé pour analyser les modèles de comportement des clients et fournir des explications détaillées sur ces modèles, ce qui permet aux entreprises de mieux comprendre leurs clients et d'adapter leurs services en conséquence.
L'avenir de l'IA avec Orca 13B
L'avenir de l'IA semble prometteur avec des modèles comme Orca 13B. En rendant Orca open source, Microsoft encourage non seulement la transparence et la collaboration au sein de la communauté de l'IA, mais permet également aux individus et aux petites équipes de contribuer au développement de l'IA. Cette démocratisation de l'IA est un pas important vers l'exploitation de l'intelligence collective de la communauté pour repousser les limites de l'IA.
Source : Microsoft
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du modèle de langage Orca 13B ?
Que pensez-vous du processus d'apprentissage adopté par Microsoft ?
Voir aussi
Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité
Un rédacteur de contenu a confié que tous ses clients l'ont remplacé par ChatGPT : « ça m'a anéanti »., les craintes de voir l'IA générative conduire à un chômage généralisé s'amplifient
WordPress pourra bientôt générer des articles et des blogues entiers grâce à un nouvel outil piloté par l'IA, mais les critiques craignent que l'outil dégrade davantage l'état du Web
Microsoft AI présente Orca : un modèle à 13 milliards de paramètres qui apprend à imiter le processus de raisonnement des grands modèles fondamentaux,
Ses performances égalent celles de ChatGPT
Microsoft AI présente Orca : un modèle à 13 milliards de paramètres qui apprend à imiter le processus de raisonnement des grands modèles fondamentaux,
Ses performances égalent celles de ChatGPT
Le , par Bill Fassinou
Une erreur dans cette actualité ? Signalez-nous-la !