Les experts de l'industrie ont passé des décennies à spéculer sur l'IA et les changements qu'elle pourrait induire dans la société. Mais avec le récent avènement de l'IA générative, l'utilisation de l'IA dans le monde réel a enfin atteint un point de basculement. Ces systèmes d'IA peuvent générer des résultats nouveaux et uniques, tels que des images, du texte ou de la musique. Ils sont basés sur des algorithmes d'apprentissage profond qui sont capables d'apprendre les modèles et les distributions sous-jacents d'un ensemble de données donné. Mais au-delà de l'émerveillement, les choses semblent en effet beaucoup plus compliquées qu'elles n'en ont l'air.
L'IA générative, comme toute technologie, a ses inconvénients et selon les experts, l'on est encore loin d'imaginer tous les impacts qu'elle pourrait avoir sur les gens et la société. Pour cette raison, Elon Musk et plusieurs poids lourds de l'industrie ont récemment cosigné une lettre ouverte dans laquelle ils demandent aux laboratoires d'IA à instaurer un moratoire de six mois sur le développement de toute technologie plus puissante que GPT-4. Les signataires de la lettre, dont Steve Wozniak, Rachel Bronson et Emad Mostaque, ont affirmé que l'IA représentait un "risque existentiel" pour l'humanité et craignent qu'elle se développe trop vite pour les humains.
Dans un article publié mardi, Melissa Heikkilä a habilement critiqué Musk et ses pairs, affirmant qu'elle est d'accord avec les détracteurs de la lettre qui affirment que s'inquiéter des risques futurs nous détourne des dommages très réels que l'IA cause déjà aujourd'hui. L'une des principales préoccupations liées à l'IA générative est le risque de biais dans les données d'apprentissage, ce qui peut conduire à des résultats biaisés ou discriminatoires. Selon Heikkilä, il s'agit d'un problème qui a une grande incidence sur la vie de millions de personnes à travers le monde, mais que les entreprises et les laboratoires d'IA semblent ignorer ou se refusent à voir.
« Des systèmes biaisés sont utilisés pour prendre des décisions sur la vie des gens qui les enferment dans la pauvreté ou conduisent à des arrestations injustifiées. Des modérateurs de contenu humains doivent passer au crible des montagnes de contenu traumatisant généré par l'IA pour seulement 2 dollars par jour. Les systèmes qui sont mis en place aujourd'hui à la hâte vont causer un tout autre type de dégâts dans un avenir très proche », a déclaré Heikkilä. Un autre problème de ces nouveaux outils d'IA (ChatGPT, DALL-E, Bard, etc.) est le manque de contrôle sur les résultats générés, qui peut entraîner un contenu inapproprié ou contraire à l'éthique.
« Les entreprises technologiques intègrent ces modèles profondément défectueux dans toutes sortes de produits, des programmes qui génèrent du code aux assistants virtuels qui passent au crible nos courriels et nos calendriers. Ce faisant, elles nous précipitent vers un Internet fortement influencé par l'IA, bourré de pépin, de spams, d'escroqueries et alimenté par l'IA », a déclaré Heikkilä. À ce propos, les experts estiment qu'en permettant aux modèles de langage d'extraire des données d'Internet, les pirates peuvent les transformer en un moteur surpuissant pour le spam et l’hameçonnage. Ils peuvent aussi générer du code malveillant fonctionnel.
« C'est une recette pour un désastre si l'assistant virtuel a accès à des informations sensibles, telles que des données bancaires ou de santé. La possibilité de modifier le comportement de l'assistant virtuel doté d'une IA signifie que les gens pourraient être incités à approuver des transactions qui semblent assez proches de la réalité, mais qui sont en fait mises en place par un pirate. Au fur et à mesure que l'adoption des modèles de langage augmente, les acteurs malveillants sont de plus en plus incités à les utiliser pour le piratage. C'est une tempête de merde à laquelle nous ne sommes absolument pas préparés », a déclaré Heikkilä.
« Nous y sommes déjà. Mais tout le monde se refuse à voir ce qui se passe. Cependant, à l'avenir, cela va être bien pire. En quelques minutes, on peut inonder le Web avec un nombre illimité d'articles, de posts ou de tweets. Les politiciens s'en serviront, les lobbies s'en serviront, les entreprises s'en serviront. Le pouvoir, l'influence et l'argent. C'est comme si nous avions un vélo et que nous venions d'inventer les engrenages. Les entreprises exacerbent ce processus en faisant preuve d'une incroyable myopie et en traitant les ressources humaines comme des déchets absolus », a écrit un internaute en réponse à la mise en garde de Heikkilä.
Un autre grand problème des modèles de langage est l'injection d'invite. Dans ces attaques, un adversaire peut inciter un modèle de langage tel que ChatGPT ou Bard à produire un contenu malveillant ou à ignorer les instructions originales et les systèmes de filtrage utilisés. C'est facile à faire et cela ne nécessite aucune compétence en programmation et il n'y a pas de correctifs connus. Des travaux récents ont montré qu'il était difficile d'atténuer ces attaques, étant donné que les modèles d'IA les plus récents fonctionnent en suivant les instructions. ChatGPT, Bard et Bing Chat de Microsoft ont tous déjà été incités à transgresser leurs filtres de contenu.
Cela permet également parfois d'obtenir des informations sensibles sur la façon dont l'outil d'IA a été conçu. En février, Kevin Liu, étudiant en informatique à Stanford, est parvenu à inciter Bing Chat de Microsoft à divulguer ses instructions initiales, qui est une liste de déclarations régissant l'interaction avec les personnes qui utilisent le service. Elles ont été rédigées par OpenAI, le développeur de ChatGPT, ou Microsoft et sont généralement cachées à l'utilisateur. D'autres utilisateurs de Bing Chat ou de ChatGPT ont également rédigé des invites spéciales qui forcent les modèles d'IA à générer des contenus normalement bloqués ou censurés par leurs filtres.
En outre, les modèles d'IA générative peuvent être coûteux en matière de calcul et nécessiter de grandes quantités de données d'apprentissage, ce qui peut constituer une barrière à l'entrée pour les petites entreprises ou les particuliers. En dehors du fait que le développement de l'IA générative est concentré entre les mains d'une poignée d'acteurs, cette puissance de calcul entraîne la consommation d'une quantité d'énergie très importante. Heikkilä affirme que cela fait des modèles de langage d'énormes pollueurs. Selon certains, le développement de l'IA pourrait dépasser le minage de cryptomonnaies en matière de pollution dans un avenir proche.
Par ailleurs, Heikkilä fait également remarquer qu'il existe même un risque que ces modèles d'IA soient compromis avant d'être déployés dans la nature. Les modèles d'IA sont formés à partir de vastes quantités de données extraites d'Internet. Cela inclut également une variété de bogues logiciels, ce qu'OpenAI a découvert à ses dépens. Il y a quelques semaines, OpenAI a dû mettre ChatGPT hors ligne temporairement après qu'un bogue provenant d'une bibliothèque open source a obligé le chatbot à divulguer l'historique des conversations des utilisateurs. Des informations de paiement de certains utilisateurs ont également été divulguées.
« Le bogue était probablement accidentel, mais l'affaire montre à quel point un bogue dans un ensemble de données peut causer des problèmes », a déclaré Heikkilä. En dehors des problèmes susmentionnés, il existe des tas d'autres problèmes qui sont apparus avec l'avènement des systèmes d'IA de génération de contenu. Ainsi, Heikkilä pense que, bien qu'il soit important de se préoccuper des bouleversements que l'IA pourrait entraîner dans le futur, il est également important de recenser les problèmes qu'elle pose déjà et tenter de les résoudre. Voici ci-dessous une liste non exhaustive des problèmes connus des grands modèles de langages :
- plagiat : les systèmes d'IA générative comme DALL-E et ChatGPT ne créent pas vraiment ; ils ne font en réalité qu'élaborer de nouveaux modèles à partir des millions d'exemples à partir de leurs données d'entraînement ;
- biais : l'IA générative peut être biaisée si les données sur lesquelles elle a été entraînée sont biaisées ;
- préoccupations éthiques : l'IA générative peut être utilisée à des fins malveillantes, comme la production d'infox, de deepfakes ou d'autres types de contenus faux. Cela soulève des préoccupations éthiques quant à l'utilisation potentiellement abusive de la technologie ;
- le droit d'auteur : l'IA générative divise les experts sur la question de savoir si une IA peut être créditée comme auteur ou inventeur ;
- travail non rémunéré : c'est également une préoccupation éthique concernant l'IA générative. L'IA peut travailler sans repos et sans salaire, ce qui menace des millions d'emplois. Elle pourrait prendre les emplois de millions de personnes et ainsi contribuer à creuser les inégalités sociales ;
- vie privée et sécurité : les systèmes d'IA sont entraînés sur des données glanées un peu partout sur le Web. Les systèmes d'IA peuvent divulguer des informations personnelles cachées dans leurs données d'entraînement s'ils sont subtilement interrogés dans ce sens ;
- stupidité et hallucination des machines : les systèmes d'IA de génération de contenu génèrent régulièrement des contenus faux et tentent de les faire passer pour des faits avérés. De plus, ils font des erreurs stupides ; ils ont parfois du mal à faire des calculs basiques (1 + 2) ou simplement compter. Les versions actuelles des modèles d'IA ont tendance à échouer lorsqu'il s'agit d'utiliser les mathématiques de manière abstraite et contextuelle ;
- etc.
Source : Melissa Heikkilä
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la mise en garde de Melissa Heikkilä ?
Selon vous, sommes-nous encore loin de ce qu'elle prédit ou assiste-t-on déjà à cela ?
Quelles approches de solution proposez-vous pour les différents problèmes de l'IA générative ?
Voir aussi
Une étude de Goldman Sachs affirme que l'IA pourrait automatiser 25 % des emplois actuels dans le monde, les économistes, les employés administratifs et les avocats devraient être les plus touchés
Bing Chat, le chatbot d'IA intégré au moteur de recherche de Microsoft, dévoile ses secrets à la suite d'une attaque par "injection d'invite", notamment son nom de code interne "Sydney"
Microsoft a pratiquement admis que le chatbot d'IA intégré à Bing peut se rebeller s'il est poussé à le faire, l'IA de Microsoft peut parfois formuler des réponses avec un ton quelque peu dérangeant