Le premier anniversaire de ChatGPT : Les grands modèles de langages open-source sont-ils en train de rattraper leur retard ?

Le 1^er décembre 2023 à 16:59, par Jade Emy

30PARTAGES

Le premier anniversaire de ChatGPT : Les grands modèles de langages open-source sont-ils en train de rattraper leur retard ?

À l'occasion du premier anniversaire de ChatGPT, des chercheurs ont publié une étude sur les grands modèles de langages (LLM) open-source. Dans l'article, ils fournissent un aperçu exhaustif du succès des LLM en examinant toutes les tâches pour lesquelles un LLM open-source a prétendu être à égalité ou meilleur que ChatGPT.

Il y a exactement un an, le lancement de ChatGPT par OpenAI a pris d'assaut la communauté de l'IA et le monde entier. Pour la première fois, un chatbot IA basé sur une application pouvait généralement fournir des réponses utiles, sûres et détaillées à la plupart des questions, suivre des instructions, et même admettre et corriger ses erreurs précédentes. Il est notamment capable d'effectuer ces tâches en langage naturel qui étaient traditionnellement réalisées par des modèles de langage pré-entraînés puis adaptés, tels que le résumé ou la réponse à des questions (QA), et ce, apparemment de manière étonnante.

En tant que premier de son genre, ChatGPT a attiré le grand public - il a atteint 100 millions d'utilisateurs deux mois seulement après son lancement, bien plus rapidement que d'autres applications populaires comme TikTok ou YouTube. Il a également attiré d'énormes investissements commerciaux, en raison de son potentiel de réduction des coûts de main-d'œuvre, d'automatisation des flux de travail et même d'apport de nouvelles expériences aux clients.

Cependant, étant donné que ChatGPT n'est pas open-source et que son accès est contrôlé par une société privée, la plupart de ses détails techniques restent inconnus. Bien qu'il soit affirmé qu'il suit la procédure introduite dans InstructGPT, son architecture exacte, ses données de pré-entraînement et ses données de mise au point sont inconnues. Cette nature de source proche génère plusieurs problèmes clés.

Premièrement, sans connaître les détails internes tels que la procédure de pré-entraînement et de réglage fin, il est difficile d'estimer correctement les risques potentiels pour la société, surtout si l'on sait que les LLM peuvent notoirement générer des contenus toxiques, contraires à l'éthique et mensongers. Deuxièmement, il a été signalé que les performances de ChatGPT changent au fil du temps, ce qui empêche d'obtenir des résultats reproductible. Troisièmement, ChatGPT a connu de nombreuses pannes, dont deux majeures en novembre 2023, au cours desquelles l'accès au site web de ChatGPT et à son API a été complètement bloqué. Enfin, les entreprises qui adoptent ChatGPT peuvent être préoccupées par le coût élevé des appels aux API, les pannes de service, les questions de propriété des données et de confidentialité, et d'autres événements imprévisibles tels que le récent drame survenu dans la salle du conseil d'administration à propos du licenciement du PDG Sam Altman, de la rébellion du personnel et de son éventuel retour.

Les LLM open-source, en revanche, offrent une voie prometteuse car ils peuvent potentiellement remédier à la plupart des problèmes susmentionnés ou les contourner. C'est la raison pour laquelle la communauté des chercheurs s'efforce activement de maintenir les LLM performants en open-source. Cependant, à l'heure actuelle (fin 2023), il est largement admis que les LLM open-source tels que Llama-2 ou Falcon sont à la traîne par rapport à leurs homologues closed-source tels que GPT3.5 (ChatGPT) et GPT-4 d'OpenAI, Claude2 d'Anthropic ou Bard3 de Google, GPT-4 étant généralement considéré comme le champion de tous.

Cependant, ce qui est très encourageant, c'est que l'écart se réduit de plus en plus et que les LLM open-source rattrapent rapidement leur retard. En fait, comme le montre la figure 1, les meilleurs LLM open-source sont déjà plus performants que GPT-3.5-turbo sur certains benchmarks standard. Cependant, les LLM open-source ne sont pas à l'abri d'une lutte acharnée. Le paysage est en constante évolution : les LLM closed-source sont mis à jour en se recyclant sur des données plus récentes régulièrement, les LLM open-source sont publiés pour rattraper leur retard, et il existe une myriade d'ensembles de données d'évaluation et de repères utilisés pour comparer les LLM, ce qui rend l'identification d'un meilleur LLM particulièrement difficile.

Dans cette étude, nous visons à consolider les études récentes sur les LLMs open-source et à fournir une vue d'ensemble de ceux qui égalent ou surpassent ChatGPT dans divers domaines. Nos contributions sont triples :

Consolider les différentes évaluations des LLMs open-source, fournir une vue impartiale et complète des LLMs open-source par rapport à ChatGPT.
Révision systématique des LLMs open-source qui égalent ou surpassent la performance de ChatGPT dans diverses tâches avec analyse. Nous maintenons également un site web en direct
Nous présentons des aperçus sur la tendance du développement des LLMs open-source, les bonnes pratiques pour former les LLMs open-source et les problèmes potentiels avec les LLMs open-source.

Qui peut bénéficier de cette enquête ?

Cette enquête vise à servir de ressource essentielle pour la communauté des chercheurs et le secteur des entreprises afin de comprendre le paysage actuel et le potentiel futur des LLM open-source. Pour les chercheurs, elle fournit une synthèse détaillée des progrès actuels et de l'évolution des tendances dans le domaine des LLM open-source, en mettant en évidence les orientations prometteuses pour les recherches futures. Pour le secteur des entreprises, cette étude offre des informations et des conseils précieux, en aidant les décideurs à
d'évaluer l'applicabilité et les avantages de l'adoption de LLM open-source.

Résumé des résultats

Pour les capacités générales, Llama-2-chat-70B montre une amélioration par rapport à GPT-3.5-turbo dans certains benchmarks, mais reste derrière pour la plupart des autres. Zephir-7B approche 70B LLMs comme résultat de l'optimisation des préférences directes distillées. WizardLM-70B et GodziLLa-70B peuvent atteindre des performances comparables à GPT-3.5-turbo, ce qui montre une voie prometteuse.

Il y a aussi plusieurs domaines où les LLMs open-source sont capables de battre GPT-3.5-turbo. Pour les agents basés sur les LLM, les LLM open-source sont capables de surpasser GPT-3.5-turbo avec un pré-entraînement et un réglage fin plus étendus et spécifiques à la tâche. Par exemple, Lemur-70B-chat est plus performant dans l'exploration de l'environnement et le suivi du feedback sur les tâches de codage. AgentTuning améliore les tâches des agents non vus. ToolLLama permet de mieux appréhender l'utilisation des outils. Gorilla est plus performant que GPT-4 pour l'écriture d'appels API. Pour le raisonnement logique, WizardCoder et WizardMath améliorent les capacités de raisonnement grâce à un meilleur réglage des instructions. Lemur et Phi obtiennent de meilleures capacités grâce à un pré-entraînement sur des données de meilleure qualité.

Pour la modélisation des contextes longs, Llama-2-long peut améliorer ses performances par rapport à certaines références en effectuant un pré-entraînement avec des tokens plus longs et une fenêtre de contexte plus large; améliore plus de 7 tâches à contexte long en combinant l'extension de la fenêtre contextuelle avec l'interpolation positionnelle et l'augmentation de la récupération. Pour les capacités spécifiques à l'application, InstructRetro améliore l'AQ ouverte en effectuant un pré-entraînement avec la récupération et l'ajustement de l'instruction. Avec un réglage fin spécifique à la tâche, MentaLlama-chat- 13B surpasse GPT-3.5-turbo dans les ensembles de données d'analyse de la santé mentale. Radiologie Llama2 peut améliorer les performances sur les rapports de radiologie. Stru-Bench, un modèle 7B affiné, peut améliorer la génération de réponses structurées par rapport à GPT-3.5-turbo, qui est une capacité essentielle pour soutenir les tâches agentiques. Shepherd, avec seulement 7B paramètres, peut atteindre des performances comparables ou supérieures à GPT-3.5-turbo dans la génération de feedbacks et de critiques de modèles. Pour une IA digne de confiance, les hallucinations peuvent être réduites par un réglage fin avec des données de meilleure qualité, des techniques de décodage tenant compte du contexte, l'augmentation des connaissances externes ou le dialogue multi-agents.

Il existe également des domaines dans lesquels GPT-3.5-turbo et GPT-4 restent imbattables, tels que la sécurité de l'IA. En raison de la RLHF à grande échelle impliquée dans les modèles GPT, ils sont connus pour démontrer des comportements plus sûrs et plus éthiques, ce qui est probablement une considération plus importante pour les LLM commerciaux par rapport aux open-source. Cependant, avec les efforts récents sur la démocratisation du processus RLHF, nous pourrions nous attendre à voir plus d'améliorations de performance pour les LLM open-source dans la sécurité.

Source : ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up?

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara, qui suggère que les LLM de Google sont les moins fiables

Une solution open source reproduirait le processus de formation de ChatGPT, avec seulement 1,6 Go de mémoire GPU, selon Colossal-AI

Les grands modèles de langage (LLM) comprennent et peuvent être améliorés par des stimuli émotionnels, d'après un sujet de recherche

Vous avez lu gratuitement 880 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Le premier anniversaire de ChatGPT : Les grands modèles de langages open-source sont-ils en train de rattraper leur retard ?

Identifiant
Mot de passe

Mot de passe oublié ?