La mission d'Inflection AI est de créer une IA personnelle pour tout le monde. En mai dernier, la société a lancé Pi-une IA personnelle, conçue pour être empathique, utile et sûre. En novembre, elle a annoncé un nouveau modèle de fondation majeur, Inflection-2, le deuxième meilleur LLM au monde à l'époque.Aujourd'hui, Inflection AI ajoute le QI à l'exceptionnel quotient émotionnel de Pi en lançant Inflection-2.5, son modèle interne amélioré, qui rivalise avec les meilleurs LLM du monde, tels que GPT-4 et Gemini. Ce modèle associe la capacité brute à la personnalité caractéristique de l'assistant et à un réglage fin unique et empathique. Inflection-2.5 est disponible pour tous les utilisateurs de Pi dès aujourd'hui, sur pi.ai, sur iOS, sur Android, ou sur la nouvelle application de bureau de Pi.Cette étape a été franchie avec une efficacité incroyable : Inflection-2.5 approche les performances de GPT-4, mais n'utilise que 40 % de la quantité de calcul pour la formation.La société indique avoir fait des progrès considérables dans les domaines du quotient intellectuel, comme le codage et les mathématiques. Cela se traduit par des améliorations concrètes sur des benchmarks clés de l'industrie, permettant à Pi d'être toujours à la pointe de la technologie. En outre, Pi intègre désormais des capacités de recherche sur le web en temps réel de classe mondiale pour garantir que les utilisateurs obtiennent des nouvelles de dernière minute et des informations actualisées de grande qualité.Inflection-2.5 a déjà été déployé auprès des utilisateurs, lesquels affirmant être très satisfaits de Pi. Un impact très significatif a été constaté sur le sentiment, l'engagement et la rétention des utilisateurs, ce qui a accéléré la croissance organique des utilisateurs.Le million d'utilisateurs actifs quotidiens et les six millions d'utilisateurs actifs mensuels ont désormais échangé plus de quatre milliards de messages avec Pi. Une conversation avec Pi dure en moyenne 33 minutes et une sur dix plus d'une heure par jour. Environ 60 % des personnes qui discutent avec Pi au cours d'une semaine donnée reviennent la semaine suivante et une fidélisation mensuelle supérieure à celle des principaux concurrents est constatée.Grâce aux puissantes capacités d'Inflection-2.5, les utilisateurs parlent à Pi d'un plus grand nombre de sujets que jamais : discuter de l'actualité, obtenir des recommandations de restaurants locaux, étudier pour un examen de biologie, rédiger un plan d'affaires, coder, préparer une conversation importante ou simplement s'amuser en discutant d'un passe-temps.Ci-dessous, sont présentés une série de résultats sur des critères de référence clés de l'industrie. Par souci de simplicité, la comparaison porte sur Inflection-2.5 et GPT-4. Ces résultats montrent que Pi intègre désormais des capacités de QI comparables à celles des leaders reconnus de l'industrie. En raison des différences de format de rapport, le format utilisé pour l'évaluation est soigneusement indiqué.Inflection-1 a utilisé environ 4 % des FLOP d'entraînement de GPT-4 et, en moyenne, a atteint environ 72 % du niveau de GPT-4 sur une gamme variée de tâches axées sur le QI. Inflection-2.5, qui équipe désormais Pi, atteint plus de 94 % des performances moyennes de GPT-4 bien qu'il n'utilise que 40 % des FLOP d'entraînement. Une amélioration significative des performances est constatée dans tous les domaines, les gains les plus importants étant enregistrés dans les domaines des STIM.Inflection-2.5 affiche des gains substantiels par rapport à Inflection-1 sur le critère MMLU, un critère diversifié mesurant les performances sur un large éventail de tâches allant du niveau secondaire au niveau professionnel. Le test GPQA Diamond, un test de niveau expert extrêmement difficile, a également été évalué.Les résultats de deux examens STEM différents sont également inclus : l'examen hongrois de mathématiques et les performances au Physics GRE, un examen d'entrée aux études supérieures en physique.Pour les mathématiques hongroises, l'invite et le formatage en quelques clics sont fournis ici afin de faciliter la reproductibilité. Inflection-2.5 n'a utilisé que le premier exemple de l'invite.En outre, une version traitée des examens GRE de physique publiés (GR8677, GR9277, GR9677, GR0177) a été mise à disposition et les performances d'Inflection 2.5 ont été comparées à celles de GPT-4 pour le premier d'entre eux. Il a été constaté qu'Inflection-2.5 atteignait le 85e percentile des testeurs humains en maj@8, et qu'il atteignait presque le meilleur score en maj@32. Certains problèmes liés aux images ont été exclus des résultats ci-dessous afin de permettre une comparaison plus large. Toutes les questions ont néanmoins été publiées.Sur BIG-Bench-Hard, un sous-ensemble de problèmes BIG-Bench difficiles pour les modèles de langage de grande taille, Inflection-2.5 présente une amélioration de plus de 10 % par rapport à Inflection-1 et est compétitif par rapport aux modèles les plus performants.Les modèles ont également été évalués sur MT-Bench, un tableau de bord largement utilisé par la communauté pour comparer les modèles. Cependant, après avoir évalué MT-Bench, il a été constaté qu'une grande partie - près de 25 % - des exemples dans les catégories raisonnement, mathématiques et codage contenaient des solutions de référence incorrectes ou des questions dont les prémisses étaient erronées. Par conséquent, ces exemples ont été corrigés et cette version de l'ensemble de données a été publiée.En évaluant les deux sous-ensembles, il a été constaté que, dans la version correctement corrigée, Inflection-2.5 est plus conforme à ce qui est attendu d'après d'autres tests de référence.Inflection-2.5 montre des améliorations particulières par rapport à Inflection-1 en ce qui concerne les performances en mathématiques et en codage, comme le montrent les tableaux ci-dessous.Sur MBPP+ et HumanEval+, deux benchmarks de codage, une amélioration massive est constatée par rapport à Inflection-1.Pour MBPP, la valeur de GPT-4 provient de DeepSeek Coder. Pour HumanEval, le résultat est tiré du classement EvalPlus (GPT-4, 23 mai).Inflection-2.5 a également été évalué sur HellaSwag et ARC-C, des critères scientifiques et de bon sens rapportés par un large éventail de modèles. Dans les deux cas, d'excellentes performances ont été constatées sur ces benchmarks saturants.Toutes les évaluations ci-dessus ont été réalisées avec le modèle qui équipe actuellement le Pi, mais il convient de noter que l'expérience de l'utilisateur peut être légèrement différente en raison de l'impact de la recherche sur le web (aucun des benchmarks ci-dessus n'utilise la recherche sur le web), de la structure de l'invite few-shot et d'autres différences liées à la production.En résumé, Inflection-2.5 conserve la personnalité unique et accessible de Pi et ses normes de sécurité extraordinaires, tout en devenant un modèle encore plus utile dans tous les domaines.La société souhaite remercier ses partenaires Azure et CoreWeave pour le soutien qu'ils lui ont apporté en mettant à la disposition de millions d'utilisateurs à travers le monde les modèles linguistiques de pointe qui sont à la base de Pi.