
L'agent de codage expérimental alimenté par l'IA est construit sur la plateforme de modèles d'IA Gemini 2.0 récemment annoncée par Google. Il s'intègre directement au système de flux de travail de GitHub et peut analyser des bases de code complexes, mettre en œuvre des correctifs sur plusieurs fichiers et préparer des demandes d'extraction détaillées sans supervision humaine constante.
Avec la nouvelle version de Gemini, Google donne aux développeurs les moyens de construire l'avenir de l'IA grâce à des modèles de pointe, des outils intelligents permettant d'écrire du code plus rapidement et une intégration transparente sur toutes les plateformes et tous les appareils. Depuis le lancement de Gemini 1.0 en décembre dernier, des millions de développeurs ont utilisé Google AI Studio et Vertex AI pour créer avec Gemini dans 109 langues.
La disponibilité récente du modèle d'IA expérimental Gemini 2.0 Flash permet des applications encore plus immersives et interactives, ainsi que de nouveaux agents de codage qui amélioreront les flux de travail en prenant des mesures au nom du développeur.
Construire avec Gemini 2.0 Flash
S'appuyant sur le succès de Gemini 1.5 Flash, la version 2.0 Flash est deux fois plus rapide que la version 1.5 Pro tout en étant plus performante. Elle inclut de nouvelles sorties multimodales et permet l'utilisation d'outils en mode natif. Une API multimodale en temps réel Live est également introduite pour créer des applications dynamiques avec des flux audio et vidéo en temps réel.
Dès ce 11 décembre, les développeurs peuvent tester et explorer Gemini 2.0 Flash via l'API Gemini dans Google AI Studio et Vertex AI pendant sa phase expérimentale, la disponibilité générale étant prévue pour le début de l'année prochaine.
Avec Gemini 2.0 Flash, les développeurs ont accès à :
1. De meilleures performances
Gemini 2.0 Flash est plus puissant que la version 1.5 Pro, tout en conservant la vitesse et l'efficacité que les développeurs attendent de Flash. Il offre également des performances améliorées en matière de multimodalité, de texte, de code, de vidéo, de compréhension spatiale et de raisonnement sur des benchmarks clés.
L'amélioration de la compréhension spatiale permet de générer des boîtes de délimitation plus précises pour les petits objets dans les images encombrées, et d'améliorer l'identification et le sous-titrage des objets.
2. Nouvelles modalités de sortie
Les développeurs pourront utiliser Gemini 2.0 Flash pour générer des réponses intégrées pouvant inclure du texte, du son et des images, le tout par le biais d'un seul appel API. Ces nouvelles modalités de sortie sont disponibles pour les premiers testeurs, un déploiement plus large étant prévu l'année prochaine.
Les filigranes invisibles SynthID seront activés dans toutes les sorties images et audio, ce qui contribuera à réduire les problèmes de désinformation et d'attribution erronée.
- Sortie audio multilingue native : Gemini 2.0 Flash dispose d'une sortie audio texte-parole native qui permet aux développeurs de contrôler finement non seulement ce que le modèle dit, mais aussi comment il le dit, avec un choix de 8 voix de haute qualité et une gamme de langues et d'accents.
- Sortie d'images native : Gemini 2.0 Flash génère désormais des images en mode natif et prend en charge l'édition conversationnelle multi-tours, ce qui vous permet de vous appuyer sur les résultats précédents et de les affiner. Il peut produire du texte et des images entrelacés, ce qui le rend utile pour les contenus multimodaux tels que les recettes.
3. Utilisation native d'outils
Gemini 2.0 a été formé à l'utilisation d'outils - une capacité fondamentale pour la construction d'expériences agentiques. Il peut appeler nativement des outils tels que Google Search et l'exécution de code, ainsi que des fonctions tierces personnalisées via l'appel de fonctions. L'utilisation native de Google Search en tant qu'outil permet d'obtenir des réponses plus factuelles et plus complètes et d'augmenter le trafic vers les éditeurs. Plusieurs recherches peuvent être effectuées en parallèle, ce qui permet d'améliorer la recherche d'informations en trouvant des faits plus pertinents à partir de plusieurs sources simultanément et en les combinant pour plus de précision.
4. API multimodale en temps réel
Les développeurs peuvent désormais créer des applications multimodales en temps réel avec des entrées audio et vidéo provenant de caméras ou d'écrans. Les modèles de conversation naturels tels que les interruptions et la détection de l'activité vocale sont pris en charge. L'API prend en charge l'intégration de plusieurs outils pour réaliser des cas d'utilisation complexes avec un seul appel d'API.
Les startups ont fait des progrès impressionnants avec Gemini 2.0 Flash, prototypant de nouvelles expériences comme le terrain de jeu visuel de tldraw, la création de personnages virtuels et la narration audio de Viggle, la traduction multilingue contextuelle de Toonsutra, et l'ajout de l'audio en temps réel de Rooms.
Google a publié trois expériences d'application de démarrage dans Google AI Studio, ainsi que du code source ouvert pour la compréhension spatiale, l'analyse vidéo et l'exploration de Google Maps, afin que les développeurs puissent commencer à construire avec Gemini 2.0 Flash.
Permettre l'évolution de l'assistance d'IA au codage
Alors que l'assistance au codage par l'IA évolue rapidement, passant de la simple recherche de code à des assistants dotés d'IA intégrés dans les flux de travail des développeurs, Google souhaite partager la dernière avancée qui utilisera Gemini 2.0 : des agents de codage capables d'exécuter des tâches pour le compte des utilisateurs.
Dans ses dernières recherches, Google a pu utiliser Gemini 2.0 Flash équipé d'outils d'exécution de code pour atteindre 51,8 % sur le SWE-bench Verified, qui teste les performances des agents sur des tâches d'ingénierie logicielle réelles. La vitesse d'inférence de pointe de 2.0 Flash a permis à l'agent d'échantillonner des centaines de solutions potentielles, en sélectionnant les meilleures sur la base des tests unitaires existants et du propre jugement de Gemini. Cette recherche est en train d'être transformée en nouveaux produits pour les développeurs.
Rencontrez Jules, votre agent de code doté d'une IA
Imaginez que votre équipe vient de terminer un bug bash, et que vous vous retrouvez face à une longue liste de bugs. À partir d'aujourd'hui, vous pouvez décharger les tâches de codage Python et Javascript à Jules, un agent de code expérimental alimenté par l'IA qui utilisera Gemini 2.0.
Fonctionnant de manière asynchrone et intégré à votre flux de travail GitHub, Jules s'occupe des corrections de bogues et d'autres tâches fastidieuses pendant que vous vous concentrez sur ce que vous voulez réellement construire. Jules crée des plans complets en plusieurs étapes pour résoudre les problèmes, modifie efficacement plusieurs fichiers, et prépare même des demandes d'extraction pour renvoyer les corrections directement dans GitHub.
C'est encore un peu tôt, mais d'après l'expérience interne de Google, Jules donne aux développeurs :
[LIST][*] Plus de productivité. Assignez des problèmes et des tâches de codage à Jules pour une efficacité de codage asynchrone.[*] Suivi des progrès. Restez informé et priorisez les tâches qui requièrent votre attention grâce à des mises à jour en temps réel.[*] Contrôle total par le développeur. Examinez les plans créés par Jules en cours de route, et fournissez des commentaires ou demandez des ajustements si vous le jugez nécessaire. Révisez facilement et, si nécessaire, fusionnez le code écrit par Jules[/*]...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.