Cela fait moins d'un mois que le géant des moteurs de recherche a présenté la vidéo de démonstration qui a fait couler beaucoup d'encre. Mais au final, le fabricant d'Android a été vivement critiqué pour ce qui semblait être une mise en scène entre le présentateur et le monde de l'IA, comme le souligne la dernière controverse sur le sujet.
Aujourd'hui, selon une nouvelle étude, on assiste à des révélations choquantes, notamment sur le fait que le chatbot que Google affirme être le plus puissant mis à la disposition des utilisateurs est en réalité loin d'être idéal. En fait, ses performances sont comparées à celles de la variante GPT 3.5 d'OpenAI, qui est dépassée, et les résultats sont bien pires.
Oui, cela signifie que le LLM le plus puissant et le plus récent de Google n'a pas réussi à impressionner malgré les mois qu'il a mis à arriver sur le marché, et qu'il n'a pas répondu aux attentes des experts. N'oubliez pas que la version 3.5 de ChatGPT est non seulement ancienne et moins innovante, mais qu'elle est également gratuite. Les utilisateurs qui paient un abonnement peuvent accéder aux LLM GPT-4 et 4V et la majorité des utilisateurs tirent le meilleur parti de la dernière alternative OpenAI.
Cette recherche menée par des auteurs de l'université Carnegie Mellon a montré comment le modèle a effectué plusieurs tâches, y compris l'écriture, pour parvenir à cette compréhension. Il est choquant de constater que la qualité de ces écrits est inférieure à celle d'autres écrits générés par des outils similaires de la concurrence. Ce type de conclusion, qui comporte des chocs importants, ne peut que nuire à la direction de Google, qui a consacré non seulement du temps mais aussi beaucoup d'argent à la commercialisation du modèle Gemini Pro, considéré comme le nec plus ultra dans le monde de l'intelligence artificielle. Il n'était pas seulement comparable, mais inférieur en termes de précision à la version récente d'OpenAI.
Lorsque Google a été contacté pour faire la lumière sur cette affaire et sur ce qu'il pensait des résultats, le porte-parole a dévoilé quelques faits intéressants. Il a expliqué en détail les études menées par Google, qui ont prouvé le contraire. Non seulement Gemini Pro était meilleur que GPT 3.5, mais Gemini Ultra, qui n'est pas encore sorti, obtiendrait de meilleurs résultats que GPT-4, la meilleure solution d'IA d'OpenAI à ce jour.
D'après ce scénario jusqu'à présent, il s'agit certainement d'une nouvelle alarmante. Bien entendu, d'autres études menées par d'autres entités externes sont nécessaires pour faire toute la lumière sur cette affaire et tirer d'autres conclusions sur la qualité du modèle Pro de Gemini. Pour l'instant, Google a réfuté les affirmations de l'étude et s'engage à s'en tenir à ses recherches internes. L'entreprise a également accusé l'auteur d'avoir utilisé de mauvaises références pour la comparaison et d'avoir provoqué des conflits en raison de la contamination des données.
Les chercheurs auraient testé quatre types de grands modèles linguistiques, dont Gemini Pro, GPT-3.5 Turbo, Mixtral 8X7B et GPT-4 Turbo d'OpenAI. Ils ont ensuite utilisé un LiteLLM pendant quatre jours, puis ont fait fonctionner les modèles sur différentes invites. En outre, il a été choquant de constater que la programmation ne répondait pas non plus aux attentes. Les niveaux de précision étaient médiocres par rapport à d'autres et pour les QCM, il a choisi de donner plus de réponses D, bien qu'elles soient incorrectes, ce qui témoigne d'un parti pris.
La question est maintenant de savoir ce que cela signifie réellement pour le géant de la technologie Google. C'est sans aucun doute un coup dur pour l'entreprise. Elle a essayé de prendre de l'avance dans la course à l'IA, mais une chose ou l'autre la fait chuter. En attendant, la variante la plus innovante et la plus puissante, baptisée Gemini Ultra, sera lancée l'année prochaine. Cela signifie donc que le géant de la technologie est à la traîne dans la course à l'IA, en ce qui concerne les performances.
Résumé
La classe de modèles Google Gemini, récemment publiée, est la première à présenter des résultats complets qui rivalisent avec la série OpenAI GPT dans une grande variété de tâches. Dans cet article, nous explorons en profondeur les capacités linguistiques de Gemini, en apportant deux contributions.
Tout d'abord, nous fournissons une comparaison objective des capacités des modèles OpenAI GPT et Google Gemini avec un code reproductible et des résultats totalement transparents. Deuxièmement, nous examinons de plus près les résultats, en identifiant les domaines dans lesquels l'une des deux classes de modèles excelle. Nous effectuons cette analyse sur 10 ensembles de données testant une variété de capacités linguistiques, y compris le raisonnement, la réponse à des questions basées sur la connaissance, la résolution de problèmes mathématiques, la traduction entre les langues, la génération de code et l'action en tant qu'agents qui suivent des instructions.
Cette analyse révèle que Gemini Pro atteint une précision proche, mais légèrement inférieure à celle du GPT 3.5 Turbo correspondant pour toutes les tâches que nous avons évaluées. Nous expliquons en outre certaines de ces contre-performances, notamment les échecs du raisonnement mathématique avec de nombreux chiffres, la sensibilité à l'ordre des réponses à choix multiples, le filtrage agressif du contenu, etc. Nous identifions également les domaines dans lesquels Gemini fait preuve d'une performance comparativement élevée, notamment la génération dans des langues autres que l'anglais et la gestion de chaînes de raisonnement plus longues et plus complexes.
Conclusion
Dans cet article, nous avons jeté un premier regard impartial et approfondi sur le modèle Gemini de Google, en le comparant aux modèles GPT 3.5 et 4 d'OpenAI, ainsi qu'au modèle open source Mixtral.
À retenir
Nous sommes arrivés à un certain nombre de conclusions :
- Le modèle Gemini Pro, qui est comparable au modèle GPT 3.5 Turbo en termes de taille et de classe, atteint généralement une précision comparable mais légèrement inférieure à celle du modèle GPT 3.5 Turbo, et bien inférieure à celle du modèle GPT 4. Il surpasse Mixtral dans toutes les tâches que nous avons examinées.
- En particulier, nous avons constaté que Gemini Pro était un peu moins performant que GPT 3.5 Turbo en moyenne, mais qu'il présentait en particulier des problèmes de biais dans l'ordre des réponses aux questions à choix multiples, de raisonnement mathématique avec de grands chiffres, de fin prématurée des tâches agentives, ainsi que de réponses échouées en raison d'un filtrage agressif du contenu.
- D'un autre côté, il y a eu des points positifs : Gemini a obtenu de meilleurs résultats que GPT 3.5 Turbo dans les tâches de raisonnement particulièrement longues et complexes, et s'est également montré compétent dans les tâches multilingues où les réponses n'étaient pas filtrées.
Limites
Enfin, nous souhaitons tempérer ces conclusions par un certain nombre de limites.
Tout d'abord, notre travail est un instantané dans le temps par rapport à des systèmes basés sur des API instables et en constante évolution. Tous les résultats présentés ici sont à jour au moment de la rédaction de ce document, le 19 décembre 2023, mais peuvent changer à l'avenir, à mesure que les modèles et les systèmes environnants sont mis à niveau.
Deuxièmement, les résultats peuvent dépendre des invites spécifiques et des paramètres de génération que nous avons sélectionnés. Il est tout à fait possible qu'avec une ingénierie plus poussée des invites, ou des échantillons multiples et une autoconsistance comme celle utilisée par l'équipe Gemini [2023], les résultats pourraient changer de manière significative. Cependant, nous pensons que les résultats cohérents sur plusieurs tâches avec des invites standardisées sont une indication raisonnable de la robustesse et de la capacité à suivre des instructions généralisées des modèles testés.
Enfin, tout article sur l'évaluation comparative serait négligent s'il n'abordait pas la question de la fuite de données, qui est un problème pour l'évaluation actuelle des modèles de langage de grande taille. Bien que nous n'ayons pas mesuré cette fuite de manière explicite, nous avons tenté de l'atténuer en évaluant une grande variété de tâches, y compris celles dont les résultats ne provenaient pas d'Internet ou n'y étaient pas largement disponibles (comme WebArena).
Perspectives
Sur la base de cet article, nous pouvons recommander aux chercheurs et aux praticiens de considérer attentivement le modèle Gemini Pro comme un outil dans la boîte à outils, comparable à GPT 3.5 Turbo. L'édition Ultra de Gemini, qui n'a pas encore été publiée, serait comparable à GPT 4, et un examen plus approfondi de ce modèle sera justifié lorsqu'il sera disponible.
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google lance Gemini, un modèle d'IA puissant qui, selon lui, peut surpasser GPT-4 et dispose de « capacités de raisonnement » avancées pour « réfléchir plus attentivement »
LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables
Le modèle d'IA Gemini de Google pourrait être cinq fois plus puissant que le modèle de langage GPT-4 d'OpenAI, il devrait combiner les capacités de GPT-4 et des programmes d'IA tels qu'AlphaGo