L'agent de codage expérimental alimenté par l'IA est construit sur la plateforme de modèles d'IA Gemini 2.0 récemment annoncée par Google. Il s'intègre directement au système de flux de travail de GitHub et peut analyser des bases de code complexes, mettre en œuvre des correctifs sur plusieurs fichiers et préparer des demandes d'extraction détaillées sans supervision humaine constante.
Avec la nouvelle version de Gemini, Google donne aux développeurs les moyens de construire l'avenir de l'IA grâce à des modèles de pointe, des outils intelligents permettant d'écrire du code plus rapidement et une intégration transparente sur toutes les plateformes et tous les appareils. Depuis le lancement de Gemini 1.0 en décembre dernier, des millions de développeurs ont utilisé Google AI Studio et Vertex AI pour créer avec Gemini dans 109 langues.
La disponibilité récente du modèle d'IA expérimental Gemini 2.0 Flash permet des applications encore plus immersives et interactives, ainsi que de nouveaux agents de codage qui amélioreront les flux de travail en prenant des mesures au nom du développeur.
Construire avec Gemini 2.0 Flash
S'appuyant sur le succès de Gemini 1.5 Flash, la version 2.0 Flash est deux fois plus rapide que la version 1.5 Pro tout en étant plus performante. Elle inclut de nouvelles sorties multimodales et permet l'utilisation d'outils en mode natif. Une API multimodale en temps réel Live est également introduite pour créer des applications dynamiques avec des flux audio et vidéo en temps réel.
Dès ce 11 décembre, les développeurs peuvent tester et explorer Gemini 2.0 Flash via l'API Gemini dans Google AI Studio et Vertex AI pendant sa phase expérimentale, la disponibilité générale étant prévue pour le début de l'année prochaine.
Avec Gemini 2.0 Flash, les développeurs ont accès à :
1. De meilleures performances
Gemini 2.0 Flash est plus puissant que la version 1.5 Pro, tout en conservant la vitesse et l'efficacité que les développeurs attendent de Flash. Il offre également des performances améliorées en matière de multimodalité, de texte, de code, de vidéo, de compréhension spatiale et de raisonnement sur des benchmarks clés.
L'amélioration de la compréhension spatiale permet de générer des boîtes de délimitation plus précises pour les petits objets dans les images encombrées, et d'améliorer l'identification et le sous-titrage des objets.
2. Nouvelles modalités de sortie
Les développeurs pourront utiliser Gemini 2.0 Flash pour générer des réponses intégrées pouvant inclure du texte, du son et des images, le tout par le biais d'un seul appel API. Ces nouvelles modalités de sortie sont disponibles pour les premiers testeurs, un déploiement plus large étant prévu l'année prochaine.
Les filigranes invisibles SynthID seront activés dans toutes les sorties images et audio, ce qui contribuera à réduire les problèmes de désinformation et d'attribution erronée.
- Sortie audio multilingue native : Gemini 2.0 Flash dispose d'une sortie audio texte-parole native qui permet aux développeurs de contrôler finement non seulement ce que le modèle dit, mais aussi comment il le dit, avec un choix de 8 voix de haute qualité et une gamme de langues et d'accents.
- Sortie d'images native : Gemini 2.0 Flash génère désormais des images en mode natif et prend en charge l'édition conversationnelle multi-tours, ce qui vous permet de vous appuyer sur les résultats précédents et de les affiner. Il peut produire du texte et des images entrelacés, ce qui le rend utile pour les contenus multimodaux tels que les recettes.
3. Utilisation native d'outils
Gemini 2.0 a été formé à l'utilisation d'outils - une capacité fondamentale pour la construction d'expériences agentiques. Il peut appeler nativement des outils tels que Google Search et l'exécution de code, ainsi que des fonctions tierces personnalisées via l'appel de fonctions. L'utilisation native de Google Search en tant qu'outil permet d'obtenir des réponses plus factuelles et plus complètes et d'augmenter le trafic vers les éditeurs. Plusieurs recherches peuvent être effectuées en parallèle, ce qui permet d'améliorer la recherche d'informations en trouvant des faits plus pertinents à partir de plusieurs sources simultanément et en les combinant pour plus de précision.
4. API multimodale en temps réel
Les développeurs peuvent désormais créer des applications multimodales en temps réel avec des entrées audio et vidéo provenant de caméras ou d'écrans. Les modèles de conversation naturels tels que les interruptions et la détection de l'activité vocale sont pris en charge. L'API prend en charge l'intégration de plusieurs outils pour réaliser des cas d'utilisation complexes avec un seul appel d'API.
Les startups ont fait des progrès impressionnants avec Gemini 2.0 Flash, prototypant de nouvelles expériences comme le terrain de jeu visuel de tldraw, la création de personnages virtuels et la narration audio de Viggle, la traduction multilingue contextuelle de Toonsutra, et l'ajout de l'audio en temps réel de Rooms.
Google a publié trois expériences d'application de démarrage dans Google AI Studio, ainsi que du code source ouvert pour la compréhension spatiale, l'analyse vidéo et l'exploration de Google Maps, afin que les développeurs puissent commencer à construire avec Gemini 2.0 Flash.
Permettre l'évolution de l'assistance d'IA au codage
Alors que l'assistance au codage par l'IA évolue rapidement, passant de la simple recherche de code à des assistants dotés d'IA intégrés dans les flux de travail des développeurs, Google souhaite partager la dernière avancée qui utilisera Gemini 2.0 : des agents de codage capables d'exécuter des tâches pour le compte des utilisateurs.
Dans ses dernières recherches, Google a pu utiliser Gemini 2.0 Flash équipé d'outils d'exécution de code pour atteindre 51,8 % sur le SWE-bench Verified, qui teste les performances des agents sur des tâches d'ingénierie logicielle réelles. La vitesse d'inférence de pointe de 2.0 Flash a permis à l'agent d'échantillonner des centaines de solutions potentielles, en sélectionnant les meilleures sur la base des tests unitaires existants et du propre jugement de Gemini. Cette recherche est en train d'être transformée en nouveaux produits pour les développeurs.
Rencontrez Jules, votre agent de code doté d'une IA
Imaginez que votre équipe vient de terminer un bug bash, et que vous vous retrouvez face à une longue liste de bugs. À partir d'aujourd'hui, vous pouvez décharger les tâches de codage Python et Javascript à Jules, un agent de code expérimental alimenté par l'IA qui utilisera Gemini 2.0.
Fonctionnant de manière asynchrone et intégré à votre flux de travail GitHub, Jules s'occupe des corrections de bogues et d'autres tâches fastidieuses pendant que vous vous concentrez sur ce que vous voulez réellement construire. Jules crée des plans complets en plusieurs étapes pour résoudre les problèmes, modifie efficacement plusieurs fichiers, et prépare même des demandes d'extraction pour renvoyer les corrections directement dans GitHub.
C'est encore un peu tôt, mais d'après l'expérience interne de Google, Jules donne aux développeurs :
- Plus de productivité. Assignez des problèmes et des tâches de codage à Jules pour une efficacité de codage asynchrone.
- Suivi des progrès. Restez informé et priorisez les tâches qui requièrent votre attention grâce à des mises à jour en temps réel.
- Contrôle total par le développeur. Examinez les plans créés par Jules en cours de route, et fournissez des commentaires ou demandez des ajustements si vous le jugez nécessaire. Révisez facilement et, si nécessaire, fusionnez le code écrit par Jules dans votre projet.
Jules est mis à la disposition d'un groupe restreint de testeurs dès aujourd'hui, et sera disponible pour les autres développeurs intéressés au début de l'année 2025.
L'agent Data Science de Colab crée des carnets de notes pour vous
Lors de la conférence I/O de cette année, Google a lancé un agent expérimental de science des données sur labs.google/code qui permet à quiconque de télécharger un ensemble de données et d'obtenir des informations en quelques minutes, le tout ancré dans un carnet de notes Colab fonctionnel.
Des commentaires positifs de la part de la communauté des développeurs ont montré l'impact de cette initiative. Par exemple, avec l'aide de Data Science Agent, un scientifique du Lawrence Berkeley National Laboratory travaillant sur un projet d'émissions de méthane dans les zones humides tropicales a estimé que son temps d'analyse et de traitement était passé d'une semaine à cinq minutes.
Colab a commencé à intégrer ces mêmes capacités agentiques, en utilisant Gemini 2.0. Il vous suffit de décrire vos objectifs d'analyse en langage clair pour que votre carnet de notes prenne forme automatiquement et vous aide à accélérer votre capacité à mener des recherches et des analyses de données. Les développeurs peuvent bénéficier d'un accès anticipé à cette nouvelle fonctionnalité en rejoignant le programme de testeurs de confiance, avant qu'elle ne soit déployée plus largement auprès des utilisateurs de Colab au cours du premier semestre 2025.
Google conclut :
Les développeurs construisent l'avenir. Nos modèles Gemini 2.0 peuvent vous permettre de créer des applications d'IA plus performantes, plus rapidement et plus facilement, afin que vous puissiez vous concentrer sur des expériences exceptionnelles pour vos utilisateurs. Nous apporterons Gemini 2.0 à nos plateformes comme Android Studio, Chrome DevTools et Firebase dans les mois à venir. Les développeurs peuvent s'inscrire pour utiliser Gemini 2.0 Flash dans Gemini Code Assist, pour des capacités améliorées d'aide au codage dans des IDE populaires tels que Visual Studio Code, IntelliJ, PyCharm et bien d'autres.
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous que l'assistant de codage Jules de Google un outil utile et intéressant ?
Avez-vous déjà utilisé un outil similaire pour votre usage ou le développement d'applications, et si oui, qu'en pensez-vous ?
Voir aussi :
Les assistants d'IA de codage font-ils vraiment gagner du temps aux développeurs ? Une étude suggère que ces outils n'augmentent pas la vitesse de codage, mais augmentent significativement le taux de bogues
Google génère « plus d'un quart de son nouveau code par l'IA », a déclaré son PDG Sundar Pichai. L'entreprise mise à fond sur l'IA, tant en interne qu'en externe
Le Codage assisté par l'IA gratuit avec Colab : Google introduira bientôt des fonctions de codage de l'IA utilisant la famille de modèles de code la plus avancée de Google, Codey