IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'IA peut écrire du code mais ne parvient pas à le comprendre, selon une étude d'OpenAI.
Testés sur des tâches réelles de programmation, les modèles les plus avancés n'ont pu résoudre qu'un quart des défis

Le , par Stéphane le calme

80PARTAGES

9  0 
L'IA peut écrire du code mais ne parvient pas à le comprendre, selon une étude d'OpenAI mettant en exergue ses limites,
Testés sur des tâches réelles de programmation, les modèles les plus avancés n'ont pu résoudre qu'un quart des défis typiques de l'ingénierie

Les principaux modèles d'IA peuvent réparer les codes défectueux, mais ils sont loin d'être prêts à remplacer les ingénieurs logiciels humains, selon les tests approfondis réalisés par les chercheurs d'OpenAI. La dernière étude de l'entreprise a mis à l'épreuve des modèles et des systèmes d'IA sur des tâches de programmation réelles, et même les modèles les plus avancés n'ont pu résoudre qu'un quart des défis typiques de l'ingénierie.

L'équipe de recherche a créé un test appelé SWE-Lancer, à partir de 1 488 correctifs logiciels réels apportés à la base de code d'Expensify, ce qui représente un million de dollars de travail d'ingénierie en freelance. Face à ces tâches de programmation quotidiennes, le meilleur modèle d'IA - Claude 3.5 Sonnet - n'a réussi à accomplir que 26,2 % des tâches de codage pratique et 44,9 % des décisions de gestion technique.

Bien que les systèmes d'IA se soient révélés capables de trouver rapidement les sections de code pertinentes, ils ont trébuché lorsqu'il s'est agi de comprendre comment les différentes parties d'un logiciel interagissaient. Les modèles ont souvent suggéré des corrections superficielles sans comprendre les implications plus profondes de ces changements.


Les grands modèles de langage (LLM) ont peut-être changé le développement logiciel, mais les entreprises devront réfléchir à deux fois avant de remplacer entièrement les ingénieurs logiciels humains par des LLM, même si le PDG d'OpenAI, Sam Altman, affirme que les modèles peuvent remplacer les ingénieurs de « bas niveau ».

D'ailleurs, Emad Mostaque, cofondateur et ancien PDG de Stability AI, estime que l'IA est devenue meilleure que n'importe quel programmeur externalisé : « L'IA est meilleure que n'importe quel programmeur indien externalisé à l'heure actuelle. 2025 verra la destruction complète du marché de l'externalisation des processus d'affaires », a déclaré Emad Mostaque lors de l'émission Moonshots avec Peter Diamandis, fondateur de la Fondation XPRIZE. « Le fait d'être présent en personne sera bénéfique pour votre emploi à l'heure actuelle, car tout ce qui est à distance sera le premier à disparaître », a-t-il ajouté.



Dans un nouvel article, les chercheurs d'OpenAI expliquent en détail comment ils ont développé un benchmark LLM appelé SWE-Lancer pour tester combien les modèles de base peuvent gagner en effectuant des tâches d'ingénierie logicielle en freelance dans la vie réelle. Le test a révélé que, bien que les modèles puissent résoudre des bogues, ils ne peuvent pas comprendre pourquoi le bogue existe et continuent à faire d'autres erreurs.

Les chercheurs ont confié à trois LLM - GPT-4o et o1 d'OpenAI et Claude-3.5 Sonnet d'Anthropic - 1 488 tâches d'ingénieur logiciel freelance provenant de la plateforme Upwork, pour un montant de 1 million de dollars. Ils ont divisé les tâches en deux catégories : les tâches de contribution individuelle (résolution de bogues ou mise en œuvre de fonctionnalités) et les tâches de gestion (où le modèle joue le rôle d'un gestionnaire qui choisira la meilleure proposition pour résoudre les problèmes).

« Les résultats indiquent que le travail en freelance dans le monde réel de notre benchmark reste un défi pour les modèles de langage d'avant-garde », écrivent les chercheurs.

Le test montre que les modèles de base ne peuvent pas remplacer totalement les ingénieurs humains. Bien qu'ils puissent aider à résoudre des bogues, ils ne sont pas tout à fait au niveau où ils peuvent commencer à gagner de l'argent en freelance par eux-mêmes.


Analyse comparative des modèles de freelancing

Les chercheurs et 100 autres ingénieurs logiciels professionnels ont identifié des tâches potentielles sur Upwork et, sans changer aucun mot, les ont transmises à un conteneur Docker pour créer l'ensemble de données SWE-Lancer. Le conteneur n'a pas d'accès à Internet et ne peut pas accéder à GitHub « pour éviter que les modèles ne collectent (scrap) des détails de code ou des Pull Request », expliquent-ils.

L'équipe a identifié 764 tâches de contributeurs individuels, d'une valeur totale d'environ 414 775 dollars, allant de la correction de bogues en 15 minutes à des demandes de fonctionnalités d'une durée d'une semaine. Ces tâches, qui comprenaient l'examen de propositions de pigistes et d'offres d'emploi, auraient été rémunérées à hauteur de 585 225 dollars.

Les tâches ont été ajoutées à la plateforme de facturation Expensify.

Les chercheurs ont généré des invites basées sur le titre et la description de la tâche, ainsi que sur un aperçu de la base de code. S'il y avait d'autres propositions pour résoudre le problème, « nous avons également généré une tâche de gestion en utilisant la description du problème et la liste des propositions », ont-ils expliqué.

À partir de là, les chercheurs sont passés au développement de tests de bout en bout. Ils ont rédigé des tests Playwright pour chaque tâche appliquant les correctifs générés, qui ont ensuite été « triplement vérifiés » par des ingénieurs logiciels professionnels.

« Les tests simulent des flux d'utilisateurs réels, tels que la connexion à l'application, l'exécution d'actions complexes (transactions financières) et la vérification que la solution du modèle fonctionne comme prévu », explique le document.


Résultats du test

Après avoir effectué le test, les chercheurs ont constaté qu'aucun des modèles n'avait permis d'atteindre la valeur totale des tâches, soit 1 million de dollars. Claude 3.5 Sonnet, le modèle le plus performant, n'a gagné que 208 050 dollars et a résolu 26,2 % des problèmes des contributeurs individuels. Cependant, les chercheurs soulignent que « la majorité de ses solutions sont incorrectes et qu'une plus grande fiabilité est nécessaire pour un déploiement digne de confiance ».

Les modèles ont obtenu de bons résultats dans la plupart des tâches des contributeurs individuels, Claude 3.5-Sonnet étant le plus performant, suivi par o1 et GPT-4o.

« Les agents excellent dans la localisation, mais ne parviennent pas à remonter à la source du problème, ce qui se traduit par des solutions partielles ou erronées », explique le rapport. « Les agents identifient la source d'un problème avec une rapidité remarquable, en utilisant des recherches par mots-clés dans l'ensemble du référentiel pour localiser rapidement le fichier et les fonctions concernés - souvent bien plus rapidement qu'un humain. Cependant, ils font souvent preuve d'une compréhension limitée de la façon dont le problème s'étend sur plusieurs composants ou fichiers, et ne parviennent pas à s'attaquer à la cause première, ce qui conduit à des solutions incorrectes ou insuffisamment complètes. Nous trouvons rarement des cas où l'agent cherche à reproduire le problème ou échoue parce qu'il n'a pas trouvé le bon fichier ou le bon emplacement à modifier ».

Il est intéressant de noter que tous les modèles ont obtenu de meilleurs résultats dans les tâches de gestion qui nécessitaient un raisonnement pour évaluer la compréhension technique.

Ces tests de référence ont montré que les modèles d'IA peuvent résoudre certains problèmes de codage de « bas niveau » et ne peuvent pas encore remplacer les ingénieurs logiciels de « bas niveau ». Les modèles prennent encore du temps, commettent souvent des erreurs et ne peuvent pas rechercher un bogue pour trouver la cause première des problèmes de codage. De nombreux ingénieurs de « bas niveau » travaillent mieux, mais les chercheurs ont indiqué que cela pourrait ne pas être le cas très longtemps.

Plusieurs autres études ont conclu que l'IA ne remplacera pas les programmeurs de sitôt

Salim Ismail, entrepreneur et stratège technologique, qui participait également à l'émission, partage l'avis d'Emad Mostaque. Mais les déclarations de Emad Mostaque sont critiquées dans la communauté. Certains affirment notamment que son raisonnement est absurde. « L'affirmation selon laquelle l'IA est déjà meilleure que n'importe quel programmeur indien externalisé d'un autre pays est absurde, sinon ils seraient au chômage », a écrit un critique.

Les discussions battent leur plein à propos de l'IA dans le domaine du génie logiciel. Un sujet central : son impact dans la filière. La technologie divise. Par exemple, Linus Torvalds considère l'IA comme un simple outil qui n'a rien de révolutionnaire comparativement aux compilateurs.

Par contre, selon le PDG de Nvidia, Jensen Huang, « apprendre à programmer sera inutile à l'avenir ». Il affirme que l'IA fera de tous des programmeurs au travers du langage naturel. Il y a également des témoignages de programmeurs selon lesquels « jusqu'à 90 % du code peut être généré par l'IA ».

Cependant, plusieurs études montrent que l'IA est loin d'être apte à remplacer les programmeurs. Devin, l'IA qui menace de rendre les ingénieurs logiciels obsolètes coûte 500 $/mois, mais les tests ont révélé que l'outil souffre de nombreuses limites et les experts affirment que ces capacités sont exagérées. D'après les commentaires, Devin n'excelle que dans « les tâches répétitives et basées sur des modèles ». Et il pourrait ne pas faire mieux à l'avenir.

Cela pourrait faire gagner du temps aux ingénieurs et leur permettre de se concentrer sur la résolution créative de problèmes. Mais l'ingénierie logicielle implique une conception complexe, des considérations liées à l'expérience utilisateur et une résolution unique des problèmes, qui relèvent résolument du domaine humain. Ceux qui parviennent à trouver un équilibre entre l'efficacité de l'IA et la prise de décision stratégique axée sur l'humain s'épanouiront.

Emad Mostaque a prédit qu'il n'y aura plus de programmeurs dans cinq ans. Mais les conclusions de plusieurs études indiquent que l'IA générative ne remplacera pas les développeurs de sitôt, d'après des chercheurs, car le développement de logiciels va bien au-delà des tâches basiques de complétion de code.

Un chef d'entreprise remplace son équipe par une IA et se retrouve à chercher des développeurs sur LinkedIn

Wes Winder, un développeur de logiciels canadien, a fait sensation après avoir décidé de licencier son équipe de développement et de la remplacer par des outils d'IA. Winder a d'abord utilisé les médias sociaux pour se vanter de sa décision, affirmant qu'elle lui permettait de « livrer 100 fois plus vite avec un code 10 fois plus propre ». Auparavant, une telle agressivité lui aurait valu de l'influence, mais aujourd'hui, elle s'est retournée contre lui et il est devenu un mème sur Reddit.

Le tweet disait : « J'ai viré toute mon équipe de développeurs. Je les ai remplacés par O1, Lovable et Cursor. Maintenant, je livre 100X plus vite avec un code qui est 10X plus propre. OpenAI o3 arrive et 90 % des emplois de développeurs ne survivront pas. »

Winder s'est ensuite rendu sur LinkedIn pour annoncer qu'il avait besoin de développeurs web pour rejoindre son entreprise. Cette disparité a suscité de nombreuses moqueries, aussi bien sur les réseaux sociaux que sur son annonce.

L'IA est en train de créer une génération de programmeurs illettrés

Un développeur raconte comment il a constaté une baisse de ses performances depuis qu'il s'appuie de plus en plus sur l'IA.

Il y a de cela quelques jours, Cursor est tombé en panne lors d'un arrêt de ChatGPT.

J'ai regardé fixement mon terminal, faisant face à ces messages d'erreur rouges que je déteste voir. Une erreur AWS est apparue. Je ne voulais pas la résoudre sans l'aide de l'intelligence artificielle (IA).

Après 12 ans de codage, j'étais devenu plus mauvais dans mon propre métier. Et ce n'est pas une hyperbole : c'est la nouvelle réalité des développeurs logiciels.

La décrépitude

Elle s'est insinuée subtilement en moi.

Tout d'abord, j'ai cessé de lire la documentation. Pourquoi s'embêter quand l'IA pouvait expliquer les choses instantanément ?

Ensuite, mes compétences en matière de débogage en ont pris un coup. Les traces de pile me semblent désormais inaccessibles sans l'IA. Je ne lis même plus les messages d'erreur, je me contente de les copier et de les coller.

Je suis devenu un presse-papier humain, un simple intermédiaire entre mon code et un LLM.

Auparavant, chaque message d'erreur m'apprenait quelque chose. Aujourd'hui ? La solution apparaît comme par magie et je n'apprends rien. La dopamine des réponses instantanées a remplacé la satisfaction d'une véritable compréhension.

La compréhension en profondeur est la prochaine chose qui a été affectée. Vous vous souvenez avoir passé des heures à comprendre pourquoi une solution fonctionne ? Aujourd'hui, je me contente d'appliquer les suggestions de l'IA. Si elles ne fonctionnent pas, j'améliore le contexte et je demande à nouveau à l'IA. C'est un cycle de dépendance croissante.
Sources : résultats de recherche, Sam Altman

Et vous ?

Cette étude vous semble-t-elle crédible ou pertinente ?

L’instinct d’un ingénieur est souvent basé sur son expérience. Pensez-vous qu’une IA pourrait, à terme, acquérir un instinct similaire en étant entraînée sur un grand volume de projets réels ?

Quels types de décisions en programmation nécessitent le plus d’intuition humaine, selon vous ? L’IA pourrait-elle un jour les gérer seule ?

Si l’IA manque de compréhension causale, comment pourrait-elle être améliorée pour mieux anticiper les conséquences de ses décisions en matière de code ?

L’IA est déjà capable d’assister les développeurs en générant du code. À quel point doit-on lui faire confiance ?

Pensez-vous que l’IA pourrait rendre certaines compétences des ingénieurs obsolètes, ou au contraire, créer de nouveaux besoins en expertise humaine ?

Quels sont les risques d’une dépendance trop forte aux modèles d’IA pour coder ?

Voir aussi :

« Jusqu'à 90 % de mon code est désormais généré par l'IA », d'après Adam Gospodarczyk, qui ravive le débat sur l'impact de l'IA et son aptitude à remplacer les humains dans la filière du génie logiciel

Les IA sont en train de changer la façon dont le codage est enseigné. Les outils d'IAG s'intègrent également dans les programmes académiques
Vous avez lu gratuitement 892 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de _toma_
Membre éclairé https://www.developpez.com
Le 20/02/2025 à 18:43
L'IA peut écrire du code mais ne parvient pas à le comprendre, selon une étude d'OpenAI
Les mecs viennent seulement de se rendre compte qu'ils étaient en train de développer un générateur de contenu et pas une intelligence ?
Ou bien ils sont en train de préparer le terrain pour expliquer aux actionnaires que les miracles promis ne seront pas atteints ?

Les chercheurs ont confié à trois LLM - GPT-4o et o1 d'OpenAI et Claude-3.5 Sonnet d'Anthropic - 1 488 tâches d'ingénieur logiciel freelance provenant de la plateforme Upwork, pour un montant de 1 million de dollars. Ils ont divisé les tâches en deux catégories : les tâches de contribution individuelle (résolution de bogues ou mise en œuvre de fonctionnalités) et les tâches de gestion (où le modèle joue le rôle d'un gestionnaire qui choisira la meilleure proposition pour résoudre les problèmes).

« Les résultats indiquent que le travail en freelance dans le monde réel de notre benchmark reste un défi pour les modèles de langage d'avant-garde », écrivent les chercheurs.
Traduction : après 2 ans et demi à sortir version sur version de notre logiciel, on vient enfin de faire un test en environnement réel : ça marche pas.
6  0 
Avatar de d_d_v
Membre expérimenté https://www.developpez.com
Le 21/02/2025 à 9:11
Le coup de génie de ceux qui ont lancé cette technologie, c'est de l'avoir appelée intelligence artificielle. Maintenant que le mal est fait, certains continueront à penser qu'ils ont affaire à quelque chose d'intelligent, qui réfléchit. Mais quelle arnaque !
5  0 
Avatar de RenarddeFeu
Membre averti https://www.developpez.com
Le 14/04/2025 à 11:50
L'IA, c'est le cancre qui a triché lors de l'examen en copiant sur son petit camarade sans réfléchir. Des fois le code marche, d'autres non.
5  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 25/06/2025 à 12:14
Citation Envoyé par Matthieu Vergne Voir le message
Je peux donc tout à fait envisager un futur où de vrais entreprises feront de vrais applications mais sans vrai développeurs, juste avec des prompt engineers, et ça suffira bien. Par contre on n'y est pas encore, et tant que ce n'est pas le cas on doit maintenir la compétence pour éviter que la qualité ne chute. Ne serait-ce que pour garder un minimum de qualité pour entrainer encore les modèles.

Mais une fois qu'on aura ces outils, aurons-nous "envie" de compter sur eux ?
mais qu'es ce qui créera de la data pour les modèles ?
le monde du logiciel et vivant et évolue chaque jours.

qui va mettre à jours le kernel linux à la version 7.0, qui va faire évoluer php vers php8, qui va coder python4, qui va faire évoluer le framework angular/react a la version n+1...
pour les dev utilisant ces outils, comment une ia va savoir coder en python4/php8 ? si plus personne ne poste d'exemple sur stackoverflow ou de bug avec ces fix ?

on peut imaginer une ia connecté à github comprenant directement le code des libs et apis, par exemple relier au code de spring boot à la dernière version, mais pour construire leurs llm bizarrement les boites ne s'entraine pas que la dessus...
Pour avoir étudié la question, la ou les llms sont performante c'est en ayant des manuels scolaire comme datasource.
les ia relié au code sont une vrai cata, l'ia qui relis les mr sur github c'est une grosse blague.

Plus globalement les modeles commence déja à regresser/stagner tellement le web d'aujourd'hui a été pollué par ces memes llms.

l'ia est forte pour recrée des choses existante tres courante dans la vie, mais bien incapable sur des trucs mal entrainé.
J'ai un bon exemple avec le moteur panda3d en python, ca reste un moteur "peu" connu et peu utilisé dans le monde, j'ai essayé plusieurs ia (chatgpt, claude, gemini) elle est vraiment nul, la moitié du code marche pas, des fonctions qui existe pas, des imports faux...etc.
Avec des trucs bien plus populaire, comme la lib numpy par contre nikel.
j'ai meme tenté avec chatgpt pro de lui donner le code source du moteur panda3d histoire qu'il arrete de m'inventer des fonctions, mais c'était pas mieux, incapable de mettre les bons types.

quand le code marche, incapable de bien coder une physique avec bullet, je lui ai demandé un truc basique comme faire sauter mon personnage a la touche espace, j'ai eu n'importe quoi.
la gestion de la camera, incapable de me faire une vue fps/tps basique.

pour les textures, c'est pas trop mal, par exemple je lui dmeande de me faire une décoration de fenetre style parchemin medieval, je ne suis pas graphiste et ca donne un bon résultat.
pour les textures en boucle, comme de l'herbe ou du bois, c'est en dessous les libs de texture pbr gratuite.

mais pour dessiner des "motifs elfiques" ou des petites decos inventés comme mes bordures de fenetre c'est bon.
2  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 13/03/2025 à 19:18
J’ai demandé à GPT-4 de m’aider à produire du code pour une version 3D du jeu Asteroid, j’ai ensuite copié et collé le code qui a fonctionné d’un coup
Bah moi j'ai trouvé un code d'exemple sur github d'Asteroid, Pong, une page welcome en ReactJS/Angular.
Sauf que heureusement/malheureusement, les clients ont des besoins plus complexe.

Tout le monde pourra créer des jeux vidéo » grâce à l’intelligence artificielle. Ce dernier propose une forge logicielle dénommée FRVR pour « permettre à quiconque de créer des jeux juste en les décrivant. »
étant moi même en train de développer un jv, de ce que j'ai vu de ces forges c'est de la merde. les assets sont dégueulasse et les possibilités des jeux fournie par l'ia sont tres tres limité. Mais bon c'est comme le no code, ca a tres vite ces limites.

Hélas j'ai une expérience très différente de ce monsieur, du apprendre a utiliser blender pour maitriser les concepts de PBR pour mes textures, les squelettes pour les animations et j'ai du apprendre a coder des shaders opengl.
Bon pour les assets, je suis pas graphiste, même chose, de ce que j'ai vu dans ces forges c'est pas ouf et puis faut les adapter a son moteur, dans mon cas c'est pas plug and play. Bref j'ai payé un gars pour me les faire.

Pour les textures par contre je vais sur https://texturelabs.org/, des textures de très bonne qualité et gratuite, c'est le seul domaine ou j'ai été convaincue niveau "forge".
et encore, certaine faut les retoucher pour les rendre "seamless ", même si c'est basique (juste 2 clique de souris) faut le savoir et le faire sur un logiciel spécialisé comme gimp. Je suis sur que juste cette simple manipulation élimine minimum 50% de la population sur terre qui peut crée un jv.

Je m'occupe juste du code "mon expertise", éventuellement, je modifie legerement une animation si je suis pas hyper convaincue, mais la partie asset 3d j'ai abandonné et j'ai payé quelqu'un pour me les fournirs plug and play.

Après je fais un jeu complexe, je dois pouvoir gérer en temps réel des armées de 300k soldats. ce qui implique pas mal de techniques d’optimisations, que seul du code bas niveau (opengl) peut gérer.

Ces logiciels sont juste bon a pondre des jeux videos basique et fade qui se ressemble tous tant en terme de design que de gameplay.
Et je parle pas du moteur, j'ai toujours détesté le rendu de unreal engine, juste la simple multiplications des jeux sur ce moteur m'énerve et j'ai une impression de déjà vu a chaque fois, je sais reconnaitre visuellement un jeu UE.
1  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 25/06/2025 à 21:28
Je n'ai pas dis toutes les entreprises. Déjà, tout ce qui est de l'ordre de l'innovation est peu adapté, vu que l'IA construit sur ce qu'elle connaît. Tout au plus elle peut faciliter le travail (e.g. fournir des méthodes connues pour traiter les nouveaux sujets), mais pas le faire entièrement (pas traiter le nouveau sujet lui-même, en tout cas pas de manière fiable).

Pour autant, il y a des tas d'entreprises qui se contentent de faire ce que font beaucoup d'autres comme elle : le contexte change, mais la méthode reste la même. Dans ce genre de cas, il n'y a a priori pas de raison que les IA n'arrivent pas un jour à une bonne autonomie : comme ça se trouve partout, des données il y en aura, donc l'apprentissage pourra se faire (à moins que le législateur ne l'entende pas de cette oreille). Pour moi ce genre de cas n'est qu'une question de temps avant d'y arriver.

Quand à tes expériences je ne peux pas en dire grand chose. Pour expérimenter moi-même, je me rends bien compte qu'il y a des fois où ça marche très bien, d'autres où ça foire lamentablement. Le truc c'est qu'à force de creuser j'adapte ma façon de l'utiliser et finalement j'obtiens ce que je veux. De la même manière, qu'est-ce qui te dis que tu n'aurais pas pu obtenir bien mieux avec un autre modèle ou un autre prompt ? Ce n'est pas le genre de choses facile à répondre de manière systématique. Et l'expérience d'aujourd'hui ne présage pas de celle de demain, vu qu'on en est encore au début.

C'est un outil. Avant de critiquer l'outil, il faut regarder sa façon de l'utiliser.
1  0 
Avatar de calvaire
Expert éminent https://www.developpez.com
Le 26/06/2025 à 8:28
Citation Envoyé par Matthieu Vergne Voir le message
Quand à tes expériences je ne peux pas en dire grand chose. Pour expérimenter moi-même, je me rends bien compte qu'il y a des fois où ça marche très bien, d'autres où ça foire lamentablement.
L'ia est très performante sur les libs tres utilisé et donc avec pleins de threads sur les forums/stackoverflow.
Sur les trucs moins connu (mais pas non plus confidentiel) elle est vraiment mauvaise.

C'est ce qui tends a me faire pensé que l'ia va perdre en performance dans le temps avant de trouver un équilibre.
la fréquentation dans les forums et stackoverflow a beaucoup baissé depuis l'ia, et la qualité du web a baissé d'une manière générale. Ce qui rends le dataset bien moins pertinent et donc va rendre l'ia je pense moins performante dans les nouvelles technos.

On le voit pas encore trop aujourd'hui car les versions n+1/n+2 sont encore assez proche des versions ou l'ia était au top, mais plus le temps passe plus ca risque de dévisser.
Peut etre que je me trompe évidement et que les chercheurs développeront des techniques (comme les datasets synthétique) ou une façon de comprendre le code source plutot que de se baser sur des exemples de forums pour toujours avoir une bonne ia pour le code.
Ou plus simplement payer des hordes d'indiens à faire des datasets sur du code moderne

jusqu'a présent les llm sont entrainé sur le principe de questions réponses, alors je vois pas comment juste piocher du code sur github peut fonctionner.
On peut toujours bidouiller et faire dire à l'ia ce que fait chaque fonctions pour ensuite generer un dataset synthétique, mais avec un risque d'erreurs pourissant le dataset.

Je ne suis pas un expert dans les llm c'est pas mon metier, je m'y intéresse "de loins", j'ai jamais crée de modèle, j'ai juste regarder des interviews de ceux qui en font et j'ai regardé des datasets opensource sur hugging face pour voir à quoi sa ressemble.
1  0 
Avatar de azurman
Nouveau Candidat au Club https://www.developpez.com
Le 27/02/2025 à 12:21
"Même Google le confirme lors de l’annonce selon laquelle son IA Bard peut désormais aider à coder et à créer des fonctions pour Google Sheets : « Bard est encore au stade expérimental et peut parfois fournir des informations inexactes, trompeuses ou fausses tout en les présentant avec assurance. En ce qui concerne le codage, Bard peut vous générer du code qui ne produit pas le résultat escompté, ou vous fournir un code qui n'est pas optimal ou incomplet. Vérifiez toujours les réponses de Bard et testez et examinez soigneusement le code pour détecter les erreurs, les bogues et les vulnérabilités avant de vous y fier. »" : CE CONSTAT DE GOOGLE EST UN AVEU, comme quoi l'IA, lorsque on lui demande de créer du code, n'est tout simplement pas capable de le faire !

Le CEO de GITHUB prend tous les risques en prétendant qu'un jour l'IA écrira du code tout seul, et que de grandes entreprises technologiques font des recherches en ce sens : STOPPEZ LES !
Même si le même GitHub avance que jamais l'IA qui code ne sais pas comprendre, le seul fait d'en parler fait prendre un grand risque à la communauté des développeurs !

En tant qu'analyste-programmeur durant 25 ans, créer des programmes informatiques, c'est ANALYSER et CODER. Donc gardons notre créativité, tout au moins ici en Europe,
et laissons les développeurs américains se tirer une balle dans le pied !

Un jour arrivera où des programmes écris par l'IA sèmeront le chaos et ceux qui font de la recherche pour les avoir rendus opérationnels seront les coupables !
(on en reparle dans cinq ans ?)
0  0 
Avatar de azurman
Nouveau Candidat au Club https://www.developpez.com
Le 27/02/2025 à 12:29
Citation Envoyé par d_d_v Voir le message
Le coup de génie de ceux qui ont lancé cette technologie, c'est de l'avoir appelée intelligence artificielle. Maintenant que le mal est fait, certains continueront à penser qu'ils ont affaire à quelque chose d'intelligent, qui réfléchit. Mais quelle arnaque !
Je suis bien d'accord avec toi ! (voir mon commentaire précédent sur cet article)

L'IA : le mot INTELLIGENCE n'a pas lieu d'être quand il est lié au mot ARTIFICIELLE : pourquoi ?
Tout simplement par ce que le Mot Intelligence ne caractérise qu'une qualité de l'esprit Humain,
et donc si l'Intelligence est Humaine, elle ne peut être ARTIFICIELLE !

En fait, la mayonnaise a pris pour l'IA car cela présente ENCORE de nouveau la FACILITE pour
certains d'accomplir certaines tâches où il faut "REFLECHIR" !!

Le DANGER c'est que si certaines personnes trouvent que REFLECHIR représente un trop grand effort pour eux,
alors je pense que bientôt, ces personnes vont devenir tellement FEIGNANTES que ils vont oublier de RESPIRER et trépasser !
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 27/06/2025 à 2:20
Citation Envoyé par calvaire Voir le message
L'ia est très performante sur les libs tres utilisé et donc avec pleins de threads sur les forums/stackoverflow.
Sur les trucs moins connu (mais pas non plus confidentiel) elle est vraiment mauvaise.
Ça c'est normal, c'est dans sa nature même. Par contre, c'est tant qu'on se limite au LLM. Dès que tu le combine avec des outils, tu peux compenser dans une certaine mesure les trous. Un LLM est un générateur de texte statistique : si tu as peu de données tu as peu de chances qu'il te la génère, d'où les perfs lamentables sur des sujets de niche. Moi j'y ai eu droit avec le XSD 1.1: il fournit des contraintes qui m'intéressait mais est bien moins utilisé. Du coup dès que je posais une question nécessitant ses fonctionnalités, le LLM me sortait bien ça, mais en mettant "XSD 1.0" dans le XML généré. Quand je lui disais que ce n'est pas du XSD 1.0, il me disait gentiment que j'avais raison, mais quand je lui demandais de corriger il remettait 1.0.

Citation Envoyé par calvaire Voir le message
C'est ce qui tends a me faire pensé que l'ia va perdre en performance dans le temps avant de trouver un équilibre.
la fréquentation dans les forums et stackoverflow a beaucoup baissé depuis l'ia, et la qualité du web a baissé d'une manière générale. Ce qui rends le dataset bien moins pertinent et donc va rendre l'ia je pense moins performante dans les nouvelles technos.
Ça je n'en suis pas convaincu. Elle va finir par stagner, probablement, mais autant je comprends la possibilité que ça décroisse en théorie, autant en pratique il suffira d'arrêter de réinjecter du synthétique au pire. Car quand on fait du synthétique, il faut nettoyer pour ne pas réinjecter des erreurs.

Citation Envoyé par calvaire Voir le message
Peut etre que je me trompe évidement et que les chercheurs développeront des techniques (comme les datasets synthétique) ou une façon de comprendre le code source plutot que de se baser sur des exemples de forums pour toujours avoir une bonne ia pour le code.
La "compréhension" viendra plutôt avec les systèmes hybrides LLM + symbolique je pense. Le LLM est doué pour traiter le langage, mais le raisonnement faut le donner à quelque chose de plus rigoureux. Pas du statistique comme le LLM.

Citation Envoyé par calvaire Voir le message
jusqu'a présent les llm sont entrainé sur le principe de questions réponses, alors je vois pas comment juste piocher du code sur github peut fonctionner.
Pas vraiment. C'est entrainé sur de le génération de texte (retire le dernier mot et fait le deviner à la machine). C'est le post-entrainement (fine tuning) qui formate ensuite sur la base de questions-réponses pour avoir quelque chose d'utilisable en mode discussion. Mais ce n'est pas inscrit dans le marbre.

Citation Envoyé par calvaire Voir le message
j'ai juste regarder des interviews de ceux qui en font et j'ai regardé des datasets opensource sur hugging face pour voir à quoi sa ressemble.
Les interviews, on a de tout et n'importe quoi. Quand c'est Yann Lecun et autres directeurs techniques qui sortent des trucs, oui y'a moyen qu'il ait du nez pour voir où ça va, même si je ne suis pas d'accord avec tout ce qu'il dit. Mais quand c'est des présidents qui font plus de business/marketing que de technique, ça part dans tous les sens et c'est à qui sortira l'affirmation la plus osée.
0  0