« J'ai téléchargé une base de code entière directement depuis github, ainsi que toutes les issues. Non seulement il a été capable de comprendre l'ensemble de la base de code, mais il a identifié le problème le plus urgent et a mis en œuvre un correctif. Cela change tout », déclare le cofondateur de Cognosysai qui ajoute d’ailleurs que Gemini 1.5 ne bénéficie pas de la médiatisation qu’il mérite.
Gemini 1.5 est un « saut générationnel », d’après les chercheurs de Google :
« Gemini 1.5 Pro permet d'obtenir un rappel [ndlr. "recall" en anglais, qui est la capacité d'un modèle à trouver tous les cas pertinents dans un ensemble de données] presque parfait sur les tâches de recherche en contexte long dans toutes les modalités, améliore l'état de l'art en matière d'assurance qualité des documents longs, d'assurance qualité des vidéos longues et d'ASR en contexte long, et égale ou dépasse les performances de pointe de Gemini 1.0 Ultra sur un large éventail de points de référence », écrivent les chercheurs de Google dans un document technique sur Gemini 1.5 Pro.
En d'autres termes, lorsqu'on lui présente un long document à assimiler - jusqu'à 10 millions de jetons - Gemini 1.5 peut répondre de manière appropriée à une requête spécifique dans plus de 99 % des cas. Selon les chercheurs de Google, la capacité de 10 millions de jetons de Gemini représente « un saut générationnel par rapport aux modèles existants tels que Claude 2.1 et GPT-4 Turbo, qui pour l'instant plafonnent respectivement à 200 000 et 128 000 tokens ».
« Le modèle Gemini Ultra surpasse actuellement toutes les alternatives existantes sur un large éventail de tests de référence », a déclaré François Chollet, créateur de Keras et ingénieur logiciel chez Google, dans un billet en ligne. « Google dispose d'un mécanisme de filtrage des jeux de tests de pointe qui n'a pas d'équivalent à l'extérieur, de sorte que les tests de référence surestiment probablement d'autres modèles ».
Vers une mise au rebut totale des développeurs humains ?
L’intelligence artificielle menace les emplois en col blanc dans divers secteurs. C’est ce qui ressort d’une enquête de The Burning Glass Institute qui liste le développement de logiciels parmi les métiers concernés.
« Comme le montre la figure 4, les précédentes vagues d'automatisation ont surtout touché les professions à bas salaires (indiquées par des barres bleues). La vague d'automatisation par l’IA générative est unique en ce sens que les cols bleus pourraient être les moins touchés. Cela s'explique à la fois par l'augmentation de la demande de ces travailleurs en raison de la croissance des catégories de biens et de services haut de gamme et l'incapacité de l’intelligence artificielle générative à effectuer des tâches physiques. En fait, les professions les plus exposées à l'intelligence artificielle générative sont les professions libérales à haut salaire (illustrées par des barres jaunes) », soulignent les résultats de l’enquête.
Les résultats de cette enquête font suite à la publication des résultats d’une étude de l’OIT sur la question et selon laquelle « Environ 21 millions d’emplois occupés par des femmes et 9 millions d’emplois occupés par des hommes sont susceptibles d’être remplacés par l’intelligence artificielle. » Ce dernier précise pour ce qui est de la filière des technologies de l’information les programmeurs d’applications font partie des professions menacées par l’automatisation.
Le récent cas de la startup Magic AI est une illustration supplémentaire de ce que les entreprises visent une mise au rebut totale des développeurs humains
La startup Magic AI, basée à San Francisco, a levé 117 millions de dollars en financement de série B pour poursuivre le développement de son système d'IA avancé visant à automatiser le développement de logiciels. La levée de fonds a été menée par NFDG Ventures de Nat Friedman et Daniel Gross, avec une participation supplémentaire de CapitalG et Elad Gil. Cela porte le financement total de Magic à ce jour à plus de 145 millions de dollars.
Fondée en 2022 par Eric Steinberger et Sebastian De Ro, la startup se crée une niche en se concentrant sur le développement d'un ingénieur logiciel IA capable d'aider à des tâches de codage complexes et qui agira plus comme un collègue de travail que comme un simple outil de "copilotage".
Les fondateurs estiment qu'en plus de stimuler la productivité pratique du codage, l'avancement des outils de génération de code intelligents peut également ouvrir la voie à une intelligence artificielle générale plus étendue. Leur vision s'étend même à la création de systèmes d'intelligence artificielle générale largement capables de s'aligner sur les valeurs humaines - des systèmes capables d'accélérer le progrès global en aidant l'humanité à relever les défis les plus complexes. La levée de fonds de 23 millions de dollars en série A l'été dernier a constitué une étape majeure dans la réalisation de cette mission ambitieuse.
Le traitement de fenêtres contextuelles exceptionnellement grandes est au cœur de la stratégie technique de Magic. L'année dernière, l'entreprise a dévoilé son architecture de réseau de mémoire à long terme (LTM Net) et le modèle LTM-1 correspondant avec une fenêtre de contexte de 5 millions. À titre de comparaison, la plupart des modèles de langage fonctionnent sur des contextes beaucoup plus limités, généralement inférieurs à 32k tokens. Le puissant modèle GPT-4 Turbo d'OpenAI est de 128k tokens et Claude 2.1 d'Anthropic de 200k.
Cependant, des modèles avec des fenêtres contextuelles beaucoup plus larges se profilent à l'horizon. Google a annoncé que son nouveau modèle Gemini 1.5 disposera d'une fenêtre de contexte d'un million de tokens et a précisé qu'il avait testé des longueurs de contexte allant jusqu'à 10 millions de tokens dans le cadre de ses recherches. Les capacités contextuelles nettement plus grandes permettent une compréhension plus nuancée du code, ce qui permet au modèle de Magic de raisonner sur des référentiels entiers et des arbres de dépendance afin d'accroître son utilité.
Une récente étude arrive néanmoins à la conclusion que l’IA générative ne remplacera pas les développeurs de sitôt
Des chercheurs de l'université de Princeton ont développé un cadre d'évaluation basé sur près de 2300 problèmes courants de génie logiciel montés à partir de rapports de bogues et de feature requests soumis sur GitHub afin de tester la performance de divers modèles de grands langages (LLM).
Les chercheurs ont fourni à différents modèles de langage le problème à résoudre et le code du dépôt. Ils ont ensuite demandé au modèle de produire un correctif réalisable. Ce dernier a ensuite fait l’objet de tests pour s'assurer qu'il était correct. Mais le LLM n'a généré une solution efficace que dans 4 % des cas.
Leur modèle spécialement entraîné, SWE-Llama, n'a pu résoudre que les problèmes d'ingénierie les plus simples présentés sur GitHub, alors que les LLM classiques tels que Claude 2 d'Anthropic et GPT-4 d'OpenAI n'ont pu résoudre que 4,8 % et 1,7 % des problèmes, de façon respective.
Et l’équipe de recherche de conclure : « le génie logiciel n’est pas simple dans la pratique. La correction d'un bogue peut nécessiter de naviguer dans un grand référentiel, comprendre l'interaction entre des fonctions dans différents fichiers ou repérer une petite erreur dans du code alambiqué. Cela va bien au-delà des tâches de complétion de code. »
C’est la raison pour laquelle Linux Torvalds a tenu à se désolidariser de tout le battage médiatique autour de l’intelligence artificielle. Il la considère comme un outil au stade actuel de son évolution. Il suggère d’ailleurs la révision de code comme domaine d’application de l’intelligence artificielle. La capacité de l’intelligence artificielle à « deviner » l’intention du développeur lui sera utile pour obtenir du code fiable en un temps réduit. Une condition demeurera toutefois nécessaire : le développeur devra à son tour examiner ce que l’intelligence artificielle lui propose.
Source : Résultats de l’enquête
Et vous ?
Quelles évolutions du métier de développeur entrevoyez-vous dès 2024 au vu de l'adoption de l'intelligence artificielle dans la filière ?
Voir aussi :
« ChatGPT est appelé à changer l'éducation telle que nous la connaissons, pas la détruire comme certains le pensent », affirme Douglas Heaven du MIT Technology Review
ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile
51 % des enseignants déclarent utiliser ChatGPT dans le cadre de leur travail, de même que 33 % des élèves, et affirment que l'outil a eu un impact positif sur leur enseignement et leur apprentissage
Un professeur surprend un étudiant en train de tricher avec le chatbot d'IA ChatGPT : « je suis terrorisé », il estime que ces outils pourraient aggraver la tricherie dans l'enseignement supérieur