Développé par OpenAI, une société spécialisée dans l’intelligence artificielle et basée aux États-Unis, ChatGPT ne cesse d’émerveiller le monde depuis son lancement, avec son habileté à écrire des essais, des articles, des poèmes et du code informatique en quelques secondes seulement. Cependant, comme OpenAI n'a pas publié le code de ChatGPT, comment reproduire efficacement ChatGPT est devenu un énorme problème auquel tout le monde est confronté, et un équivalent open source de ChatGPT est très demandé.Colossal-AI, l'une des solutions open source les plus populaires pour les grands modèles d'intelligence artificielle, présente en Preview version un processus de mise en œuvre open source à faible coût de l'équivalent de ChatGPT, avec les points forts suivants :
- un processus complet de mise en œuvre de l'équivalent de ChatGPT basé sur PyTorch, couvrant les 3 étapes, qui peut aider à construire le service de style ChatGPT basé sur des modèles pré-entraînés ;
- Colossal-AI propose un mini processus d'entraînement de démonstration pour que les utilisateurs puissent s'amuser, qui ne nécessite que 1,62 Go de mémoire GPU et pourrait être réalisé sur un seul GPU de qualité grand public, avec une croissance jusqu'à 10,3 fois de la capacité du modèle sur un GPU ;
- par rapport à la version originale de PyTorch, le processus de formation sur une seule machine peut être 7,73 fois plus rapide et l'inférence sur un seul GPU peut-être 1,42 fois plus rapide, ce qui peut être réalisé en une seule ligne de code ;
- en ce qui concerne la tâche de réglage fin, une seule ligne de code permet d'augmenter la capacité du modèle de réglage fin jusqu'à 3,7 fois sur un seul GPU tout en conservant une vitesse d'exécution suffisamment élevée ;
- Colossal-AI fournit plusieurs versions d'une échelle à un seul GPU, une échelle à plusieurs GPU sur un seul nœud, et une échelle originale de 175 milliards de paramètres. Nous prenons également en charge l'importation des modèles OPT, GPT-3, BLOOM et de nombreux autres grands modèles pré-entraînés de Hugging Face dans votre processus d'entraînement.
ChatGPT est un robot à grand modèle de langage (ils permettent de prédire le mot suivant dans une série de mots) développé par OpenAI et basé sur GPT-3.5. Il a une habileté remarquable à interagir sous forme de dialogue conversationnel et à fournir des réponses qui peuvent sembler étonnamment humaines.
Alors que la classe précédente de modèles d'intelligence artificielle était principalement constituée de modèles d'apprentissage profond (Deep Learning, DL), conçus pour apprendre et reconnaître des modèles dans les données, les LLM sont un nouveau type d'algorithme d'intelligence artificielle formé pour prédire la probabilité d'une séquence de mots donnée en fonction du contexte des mots qui la précèdent.
Ainsi, si les LLM sont formés sur des quantités suffisamment importantes de données textuelles, ils sont capables de générer de nouvelles séquences de mots jamais observées auparavant par le modèle, mais qui représentent des séquences plausibles basées sur le langage humain naturel.
ChatGPT est alimenté par GPT3.5, un LLM entraîné sur le modèle OpenAI 175B parameter foundation et un grand corpus de données textuelles provenant d'Internet via des méthodes d'apprentissage par renforcement et supervisé. Une utilisation anecdotique indique que ChatGPT présente des preuves de raisonnement déductif et de chaîne de pensée, ainsi que des compétences de dépendance à long terme.
Depuis son lancement, ChatGPT a gagné en notoriété dans tous les secteurs, attirant l'attention de millions d'utilisateurs en 5 jours, atteignant 100 millions d'utilisateurs actifs mensuels 2 mois après son lancement. Elle est devenue l'application à la croissance la plus rapide de l'histoire, dépassant de loin d'autres applications bien connues aujourd'hui, comme Twitter qui a mis 5 ans pour atteindre 100 millions d'utilisateurs, Meta (Facebook) qui a mis 4 ans et demi, TikTok qui a mis 9 mois et même les téléphones portables qui ont mis 16 ans pour atteindre 100 millions d'utilisateurs.
Combien de temps, il a fallu aux meilleures applications pour atteindre 100 millions d'utilisateurs mensuels ?
ChatGPT devrait atteindre ses 100 millions en janvier, deux mois après son lancement.
Bill Gates a fait l'éloge de ChatGPT comme étant aussi important que l'invention de l'Internet, tandis que le PDG de Microsoft, Satya Nadella, a été plus franc en déclarant que « l'IA va fondamentalement changer toutes les catégories de logiciels. » En tant qu'investisseur majeur ayant investi des dizaines de milliards de dollars dans OpenAI, Microsoft a rapidement intégré ChatGPT dans son propre moteur de recherche Bing et son navigateur Edge, et prévoit de l'ajouter à Teams, Office et d'autres suites bureautiques. Son action s'est envolée de plus de 80 milliards de dollars en une nuit.
L'action Google contre l'action Microsoft après les deux présentations de l'IA
Inquiet d'être battu par ChatGPT dans le domaine de la recherche, Google a rapidement lancé le produit concurrent Bard. Près de 7,4% de la valeur marchande d'Alphabet (quelque 140 milliards de dollars) a été effacé après que Google a fièrement présenté Bard, sa réponse aux offres d'IA de nouvelle génération de Microsoft. La raison ? Le système a raté une simple question. Dans une vidéo promotionnelle pour montrer Bard, un assistant de recherche Web pour concurrencer Bing amélioré par ChatGPT de Microsoft, le logiciel a répondu de manière incorrecte à une question scientifique, faisant baisser le cours de l'action d'Alphabet.
L'erreur de Bard a été révélée quelques heures seulement avant que Google organise son premier événement pour Bard à Paris. En plus, le haut dirigeant Prabhakar Raghavan a promis que le chatbot permettrait aux utilisateurs de parcourir les informations de « toutes nouvelles façons ». Du jour au lendemain, les géants mondiaux de la technologie tentent d'être les premiers à lancer leur propre service semblable à ChatGPT pour dominer le marché dans ce domaine.
« Bien que ChatGPT soit sorti depuis plusieurs mois, le public ne dispose ni de poids de pré-entraînement ni d'un processus complet de formation open source à faible coût », écrit Hpc-ai. En fait, il est difficile de réaliser la réplication efficace de l'ensemble du processus du service de style ChatGPT basé sur des sortes de modèles à 100 milliards de paramètres. Récemment, un certain nombre d'alternatives à ChatGPT ont été temporairement lancées. Mais il est difficile de faire la différence, car elles sont fermées.
Pourquoi ChatGPT est-il si magique ? Quelles sont les difficultés pour le reproduire ?
Analyse technique de ChatGPT
La caractéristique importante des résultats étonnants de ChatGPT est l'introduction de l'apprentissage par renforcement du feedback humain (RLHF) dans le processus de formation, afin de mieux saisir les préférences humaines.
L'apprentissage par renforcement avec retour d'information humain (RLHF) est une couche supplémentaire de formation qui utilise le retour d'information humain pour aider ChatGPT à apprendre à suivre des instructions et à générer des réponses satisfaisantes pour les humains. ChatGPT a été créé par OpenAI, une société d'intelligence artificielle basée à San Francisco, connue pour son célèbre DALL-E, un modèle d'apprentissage profond qui génère des images à partir d'instructions textuelles appelées "prompts". Le processus de formation du ChatGPT est divisé en trois étapes principales :
- l'échantillonnage de la bibliothèque d'invites, la collecte des réponses humaines et l'utilisation de ces données pour affiner le modèle linguistique large pré-entraîné ;
- l'échantillonnage de la bibliothèque d'invites, la génération de réponses multiples à l'aide du grand modèle linguistique, le classement manuel de ces réponses et l'entraînement d'un modèle de récompense (RM) pour s'adapter aux préférences humaines ;
- Sur la base du modèle de réglage fin supervisé de l'étape 1 et du modèle de récompense de l'étape 2, le grand modèle de langage est ensuite entraîné à l'aide d'algorithmes d'apprentissage par renforcement.
Dans l'étape 3, qui constitue la partie centrale de l'entraînement du RLHF, OpenAI adopte l'algorithme Proximal Policy Optimization (PPO) de l'apprentissage par renforcement pour introduire le signal de récompense afin que le modèle linguistique génère un contenu plus conforme aux préférences humaines.
Les trois étapes de la RLHF
La complexité du...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.