Phind-70B est basé sur le modèle CodeLlama-70B et a été affiné sur 50 milliards de jetons supplémentaires, ce qui a permis d'apporter des améliorations significatives. Il prend également en charge une fenêtre contextuelle de 32 000 jetons.
Phind-70B obtient un score de 82,3 % sur HumanEval, battant le dernier score de GPT-4 Turbo (gpt-4-0125-preview) de 81,1 %. Sur l'ensemble de données CRUXEval de Meta, Phind-70B obtient un score de 59 % contre 62 % pour GPT-4 sur le benchmark de prédiction de sortie. Cependant, aucun de ces jeux de données publics ne reflète pleinement la manière dont les utilisateurs se servent de Phind pour des charges de travail réelles. On peut constater que Phind-70B se situe dans le même domaine de qualité que GPT-4 Turbo pour la génération de code et le dépasse pour certaines tâches. Phind-70B est également moins "paresseux" que GPT-4 Turbo et n'hésite pas à générer des exemples de code détaillés.
Phind-70B est nettement plus rapide que GPT-4 Turbo, avec plus de 80 tokens par seconde contre ~20 tokens par seconde pour GPT-4 Turbo. Selon l'équipe Phind, ils y sont parvenus en faisant tourner la bibliothèque TensorRT-LLM de NVIDIA sur les GPU H100, et ils ont travaillé sur des optimisations pour augmenter encore la vitesse d'inférence de Phind-70B.
Phind-70B est disponible dès aujourd'hui pour un essai gratuit et sans connexion. Vous pouvez obtenir des limites plus élevées en vous abonnant à Phind Pro.
Voici une déclaration de l'équipe Phind sur cette annonce de Phind-70B:
Nous aimons la communauté open-source et nous publierons les poids pour le dernier modèle Phind-34B dans les semaines à venir. Nous avons l'intention de publier les poids pour Phind-70B en temps voulu.
Nous tenons à remercier nos partenaires "cloud", SF Compute et AWS, qui nous ont aidés à mettre en place l'infrastructure nécessaire à l'entraînement et au service de Phind-70B. Nous tenons également à remercier nos partenaires Meta et NVIDIA pour leur soutien.
Fait amusant : nous avons fait fondre un H100 pendant la formation de Phind-70B !
Source : Phind
Et vous ?
Quel est votre avis sur le sujet ?
Pensez-vous que Phind-70B soit réellement meilleur que GPT-4 Turbo ?
Voir aussi :
Un nouveau modèle CodeLlama affiné appelé Phind battrait GPT-4 en termes de codage, il serait 5 fois plus rapide et avec une taille de contexte de 16 Ko
GPT-4 Turbo est-il vraiment plus puissant et plus performant ? Les résultats des benchmarks et les avis sont partagés sur l'édition de code et les autres usages
LLM par taux d'hallucinations : GPT-4 est le modèle de langage IA qui hallucine le moins, d'après une évaluation de Vectara qui suggère que les LLM de Google sont les moins fiables