Récemment, Google a annoncé la mise à jour de Gemini 1.5 Pro et le lancement de 1.5 Flash et 2 nouveaux modèles Gemma. Avec Gemini 1.5, Google a apporté une série d'améliorations de la qualité dans des cas d'utilisation clés, tels que la traduction, le codage, le raisonnement, etc. Les mises à jour ont été conçu pour des tâches encore plus vastes et plus complexes, et surtout la vitesse, pour les conversations en temps réel.
Si GPT-4o d'OpenAI et Claude-3 d'Anthropic ont dominé le paysage pour l'instant, la dernière version de Gemini 1.5 Pro semble avoir pris le dessus. L'un des critères de référence les plus reconnus dans la communauté de l'IA est le LMSYS Chatbot Arena, qui évalue les modèles sur diverses tâches et leur attribue une note de compétence globale.
Dans ce classement, GPT-4o a obtenu un score de 1 286, tandis que Claude-3 a obtenu un score louable de 1 271. Une itération précédente de Gemini 1.5 Pro avait obtenu un score de 1 261. La version expérimentale de Gemini 1.5 Pro (désignée sous le nom de Gemini 1.5 Pro 0801) a dépassé ses concurrents les plus proches avec un score impressionnant de 1 300. Cette amélioration significative suggère que le dernier modèle de Google possède des capacités globales supérieures à celles de ses concurrents.
Il convient de noter que si les tests de référence fournissent des informations précieuses sur les performances d'un modèle d'IA, ils ne représentent pas toujours avec précision l'ensemble de ses capacités ou de ses limites dans des applications réelles.
Malgré la disponibilité actuelle de Gemini 1.5 Pro, le fait qu'il s'agisse d'une version préliminaire ou d'une phase de test suggère que Google peut encore procéder à des ajustements ou même retirer le modèle pour des raisons de sécurité ou d'alignement. Ce développement marque une étape importante dans la course à la suprématie de l'IA que se livrent les géants de la technologie.
La capacité de Google à dépasser OpenAI et Anthropic dans les scores de référence démontre le rythme rapide de l'innovation dans le domaine et la concurrence intense qui alimente ces progrès. Alors que le paysage de l'IA continue d'évoluer, il sera intéressant de voir comment OpenAI et Anthropic répondront à ce défi lancé par Google. Seront-ils en mesure de reprendre leur place au sommet du classement, ou Google a-t-il établi une nouvelle norme pour les performances de l'IA générative ?
Et vous ?
Pensez-vous que ces résultats sont crédibles ou pertinents ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel
GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic
Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur