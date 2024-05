Un conseil inattendu

Google AI overview suggests adding glue to get cheese to stick to pizza, and it turns out the source is an 11 year old Reddit comment from user F*cksmith 😂 pic.twitter.com/uDPAbsAKeO — Peter Yang (@petergyang) May 23, 2024

Les risques de l’apprentissage automatique

La réaction de Google

Conclusion

En février, Google et la plateforme de médias sociaux Reddit ont annoncé avoir conclu un partenariat à 60 milliards de dollars dans le cadre duquel Reddit fournira son contenu pour l'entraînement des modèles d'intelligence artificielle (IA) du géant des moteurs de recherche.Dans le cadre de cette collaboration, Google peut utiliser l'interface de programmation d'applications (API) des données de Reddit, qui fournit du contenu en temps réel à partir de la plateforme de Reddit, ce qui permet d'accéder au vaste contenu de Reddit et de l'afficher dans les produits de Google.Reddit aura accès à Vertex AI, le service de Google basé sur l'IA et conçu pour améliorer les résultats de recherche des entreprises. Reddit précise que cette mise à jour n'a pas d'incidence sur les conditions de son API de données, qui maintient les restrictions sur l'accès commercial sans approbation pour les développeurs ou les entreprises.Google a déclaré à ce moment-là :« Nous entretenons une relation de longue date avec Reddit, et aujourd'hui nous partageons un certain nombre de façons d'approfondir notre partenariat au sein de l'entreprise. Reddit joue un rôle unique sur l'internet ouvert en tant que grande plateforme avec une incroyable richesse de conversations et d'expériences authentiques et humaines, et nous sommes ravis de nous associer pour permettre aux gens de bénéficier encore plus facilement de ces informations utiles.« Tout d'abord, nous sommes heureux d'annoncer un nouveau partenariat Cloud qui permet à Reddit d'intégrer de nouvelles capacités basées sur l'IA grâce à Vertex AI. Reddit a l'intention d'utiliser Vertex AI pour améliorer la recherche et d'autres fonctionnalités sur la plateforme Reddit.« Au fil des ans, nous avons constaté que les gens utilisent de plus en plus Google pour rechercher du contenu utile sur Reddit, afin de trouver des recommandations de produits, des conseils de voyage et bien d'autres choses encore. Nous savons que ces informations sont utiles, c'est pourquoi nous développons des moyens de les rendre encore plus faciles d'accès à travers les produits Google. Ce partenariat facilitera l'affichage d'un plus grand nombre d'informations Reddit, ce qui rendra nos produits plus utiles pour nos utilisateurs et facilitera la participation aux communautés et aux conversations Reddit.« Pour permettre ces expériences et d'autres encore, Google a désormais accès à l'API de données de Reddit, qui fournit un contenu unique, structuré et en temps réel à partir de sa plateforme vaste et dynamique. Grâce à l'API de données Reddit, Google dispose désormais d'un accès efficace et structuré à des informations plus fraîches, ainsi qu'à des signaux améliorés qui nous aideront à mieux comprendre le contenu Reddit et à l'afficher, à le former et à l'utiliser de la manière la plus précise et la plus pertinente possible. Ce partenariat élargi ne modifie en rien l'utilisation que fait Google du contenu accessible au public et pouvant être exploré, à des fins d'indexation, de formation ou d'affichage dans les produits Google ».La nouvelle fonction de recherche de Google, AI Overviews, semble mal tourner. L'outil, qui fournit des résumés des résultats de recherche générés par l'IA, a semblé demander à un utilisateur de mettre de la colle sur une pizza lorsqu'il a cherché « le fromage n'adhère pas à la pizza ».En cherchant des solutions au problème du fromage qui ne colle pas à la pizza, une capture d'écran du résumé qu'il a généré, partagée sur X, montre qu'il a répondu « le fromage peut glisser de la pizza pour un certain nombre de raisons » et que l'utilisateur pourrait essayer d'ajouter « environ 1/8 de tasse de colle non toxique à la sauce pour augmenter son adhérence ».Selon un autre utilisateur de X, la suggestion semble avoir été basée sur un commentaire Reddit datant d'il y a 11 ans, qui était probablement écrit sur le ton de la plaisanterie.Cet exemple illustre les risques associés à l’utilisation de données issues de forums en ligne comme matériel d’entraînement pour les IA. Reddit, connu pour son contenu varié et souvent non vérifié, peut contenir des informations trompeuses ou humoristiques qui, lorsqu’elles sont prises au sérieux par une IA, peuvent conduire à des conseils erronés.Google a commencé à tester la fonction AI Overviews aux États-Unis et au Royaume-Uni au début de l'année et a annoncé qu'elle serait déployée plus largement d'ici à la fin de 2024. Liz Reid, responsable de la recherche, l'a présentée comme « Google va faire la recherche à votre place » lors de la conférence I/O de l'entreprise la semaine dernière.Le conseil de la colle à pizza met en évidence les pièges de l'utilisation de la fonction d'IA pour la recherche d'informations. Dans d'autres cas, comme le souligne Peter Kafka, l'un des problèmes des moteurs d'IA générative est qu'ils peuvent tout simplement inventer des choses.Kafka a utilisé la fonctionnalité "IA Overview" pour demander si la Tour de Londres avait été endommagée par les bombes allemandes pendant la Seconde Guerre mondiale. Le résumé a confondu le monument avec la tour d'horloge connue sous le nom de Big Ben. Le résumé indique que « le toit et les cadrans ont été endommagés lors d'un raid aérien », mais ce n'est pas exact.Ce n'est qu'une des nombreuses erreurs qui apparaissent dans la nouvelle fonctionnalité que Google a déployée ce mois-ci. Elle affirme également que l'ancien président des États-Unis James Madison a été diplômé de l'université du Wisconsin non pas une fois mais 21 fois, qu'un chien a joué dans la NBA, la NFL et la NHL, et que Batman est un policier.Meghann Farnsworth, porte-parole de Google, a précédemment déclaré aux médias que de tels exemples étaient « des requêtes extrêmement rares et ne sont pas représentatives des expériences de la plupart des gens ». Elle a ajouté que la « grande majorité des aperçus d'IA fournissent des informations de haute qualité » et que Google a effectué des « tests approfondis » avant de lancer la fonctionnalité. L'entreprise a pris des mesures contre les violations de ses règles, a-t-elle précisé, et utilise ces « exemples isolés » pour continuer à affiner le produit.Néanmoins, cet incident met en évidence les défis que représentent la vérification et la sélection des données utilisées pour l’entraînement des modèles d’intelligence artificielle.Google n'a pas promis que tout serait parfait et a même apposé la mention « Generative AI is experimental » au bas des réponses sur l'IA. Mais il est clair que ces outils ne sont pas prêts à fournir des informations précises à grande échelle.Prenons par exemple la grande présentation de cette fonctionnalité lors de la conférence Google I/O. La démo était très contrôlée, et pourtant, elle a fourni une réponse douteuse sur la manière de réparer un appareil photo à pellicule bloqué (elle suggérait « d'ouvrir l'arrière et de retirer délicatement la pellicule » ; ne faites pas cela si vous ne voulez pas gâcher vos photos !)Il n'y a pas que Google ; des entreprises comme OpenAI, Meta et Perplexity ont toutes été confrontées à des hallucinations et à des erreurs de l'IA. Toutefois, Google a décidé de déployer cette technologie à grande échelle, et les exemples d'erreurs ne cessent d'affluer.Les entreprises qui développent l'intelligence artificielle s'empressent souvent d'éviter d'assumer la responsabilité de leurs systèmes, affirmant qu'elles ne peuvent pas prédire ce que l'intelligence artificielle va produire, et qu'elles n'ont donc aucun contrôle sur la situation.Mais pour les utilisateurs, c'est un problème. L'année dernière, Google a déclaré que l'IA était l'avenir de la recherche. Mais à quoi cela sert-il si la recherche semble plus bête qu'avant ?Sur Threads, cette internaute se demande : « L'une des particularités des réponses de l'IA de Google est qu'il n'y a aucune clarté sur la manière dont le système choisit ce qu'il faut mettre en avant. Les réponses de l'IA doivent-elles inclure des éléments tirés de commentaires Reddit aléatoires ? Un exemple : le point sur les chats qui vous lèchent pour voir si vous êtes propre à la consommation a été repris mot pour mot d'un post Reddit qui était clairement une blague ».Alors que l’intelligence artificielle continue de se développer et de s’intégrer dans notre quotidien, il est essentiel de rester vigilant quant à la qualité des données utilisées pour son apprentissage. Cet épisode de la colle sur pizza nous rappelle que l’IA est aussi fiable que les informations sur lesquelles elle est formée. Il souligne l’importance de la responsabilité et de la transparence dans le développement des technologies d’intelligence artificielle.Source : captures d'écranQuelle est votre réaction initiale en apprenant que l’IA de Google a suggéré de mettre de la colle sur les pizzas ?Comment pensez-vous que les entreprises technologiques devraient gérer la vérification des données utilisées pour entraîner leurs IA ?Quel rôle les utilisateurs peuvent-ils jouer pour aider à améliorer la qualité des suggestions fournies par les IA ?Avez-vous déjà rencontré des conseils ou des informations étranges provenant d’une IA ? Si oui, comment avez-vous réagi ?Quelles mesures préventives pourraient être mises en place pour éviter que des erreurs similaires se reproduisent à l’avenir ?Dans quelle mesure faites-vous confiance aux résumés générés par l’IA et comment vérifiez-vous leur exactitude ?Pensez-vous que l’humour et la satire devraient être exclus de l’entraînement des IA pour éviter de tels malentendus ?