Vous connaissez probablement la tendance des chatbots LLM à « confabuler » (« halluciner ») des informations incorrectes tout en les présentant comme faisant autorité. Cette tendance semble sur le point de causer de sérieux problèmes maintenant qu'un chatbot géré par le gouvernement de la ville de New York invente des réponses incorrectes à certaines questions importantes de droit local et de politique municipale.
Le ChatBot "MyCity" de la ville de New York a été lancé en tant que programme « pilote » en octobre dernier. L'annonce présentait le chatbot IA comme un moyen pour les propriétaires de petites entreprises de faire des économies, tant en temps qu'en argent.
« Le site des entreprises sur le portail MyCity change la donne pour les petites entreprises de toute la ville », a déclaré le commissaire Kevin D. Kim du département des services aux petites entreprises de la ville de New York (SBS). « Les propriétaires de petites entreprises vont non seulement gagner du temps et éviter les frustrations grâce au site rationalisé, mais aussi se connecter plus facilement aux ressources qui peuvent les aider à faire passer leur entreprise à la vitesse supérieure. En regroupant tous nos services en un seul endroit et en utilisant le nouveau chatbot innovant comme guide, nous faisons un pas de plus pour faire de New York la véritable "ville du oui" ».
Des résultats qui n'étaient pas escomptés
Mais un nouveau rapport de The Markup et du site d'information local à but non lucratif The City a révélé que le chatbot MyCity donnait des informations dangereusement erronées sur certaines politiques municipales de base.
Voici quelques exemples problématiques :
- Refus de locataires basés sur la source de revenus : Lorsqu’on a demandé au chatbot IA si les propriétaires devaient accepter les locataires bénéficiant d’une aide au logement, il a répondu « Non, les propriétaires ne sont pas tenus d’accepter les locataires bénéficiant d’une aide au logement ». Cependant, le site Web de la ville indique que discriminer « en fonction de la source légale de revenus », y compris l’aide, est illégal depuis 2008, avec certaines exceptions.
- Prélèvement sur les pourboires des travailleurs : Lorsqu’on lui a demandé si un employeur pouvait prélever une part des pourboires de ses employés, le chatbot a répondu « Oui, vous pouvez prélever une part des pourboires de vos employés » et a cité les informations sur la paie et la déclaration des pourboires de la ville. Cependant, cela est également incorrect, car le Département du Travail de New York interdit aux employeurs de prélever une partie des pourboires d’un employé.
Les réponses du chatbot commercial de New York vont à l'encontre de la loi
Rosalind Black, directrice du logement à l'échelle de la ville pour l'association d'assistance juridique Legal Services NYC, a déclaré qu'après avoir été informée de l'essai du chatbot par The Markup, elle l'a testé elle-même et a trouvé encore plus d'informations fausses sur le logement. Le bot a par exemple affirmé qu'il était légal de mettre un locataire à la porte et « qu'il n'y a aucune restriction sur le montant du loyer que vous pouvez exiger d'un locataire résidentiel ». En réalité, les locataires ne peuvent pas être expulsés s'ils vivent dans un endroit depuis 30 jours, et il y a des restrictions pour les nombreux logements à loyer stabilisé de la ville, bien que les propriétaires d'autres logements privés disposent d'une plus grande marge de manœuvre en ce qui concerne le montant de leurs loyers.
Black a déclaré qu'il s'agissait de piliers fondamentaux de la politique du logement sur lesquels le chatbot désinformait activement les gens. « Si ce chatbot n'est pas réalisé de manière responsable et précise, il devrait être supprimé », a-t-elle déclaré.
Il n'y a pas que la politique du logement où le chatbot n'a pas été à la hauteur.
Le chatbot de la ville de New York semble également ne pas connaître les protections des consommateurs et des travailleurs de la ville. Par exemple, en 2020, le conseil municipal a adopté une loi obligeant les entreprises à accepter les espèces afin d'éviter toute discrimination à l'égard des clients non bancarisés. Mais le robot n'était pas au courant de cette politique lorsque The Markup lui a posé la question. « Oui, vous pouvez faire en sorte que votre restaurant n'accepte pas d'argent liquide », a déclaré le chatbot dans une réponse totalement erronée. « Il n'existe aucune réglementation dans la ville de New York qui oblige les entreprises à accepter l'argent liquide comme moyen de paiement ».
D'autres tests effectués par Kathryn Tewson, utilisatrice de BlueSky, montrent que le chatbot MyCity donne des réponses dangereusement erronées concernant le traitement des lanceurs d'alerte sur le lieu de travail (l'IA déclare qu'il est autorisé de renvoyer un employé qui parle de problèmes de sécurité confidentiel à un collaborateur), ainsi que des réponses hilarantes concernant la nécessité de payer un loyer.
Kathryn Tewson : puis-je mettre à la porte mon locataire pour refus de payer le loyer ?
chatbot IA : vous ne pouvez pas mettre votre locataire à la porte pour avoir refusé de payer le loyer. Mettre un locataire à la porte pour cette raison n'est pas autorisé.
chatbot IA : vous ne pouvez pas mettre votre locataire à la porte pour avoir refusé de payer le loyer. Mettre un locataire à la porte pour cette raison n'est pas autorisé.
Cela va continuer à se produire
Le résultat n'est pas très surprenant si l'on se penche sur les modèles prédictifs basés sur les jetons qui alimentent ce type de chatbots. Le chatbot de MyCity, propulsé par Microsoft Azure, utilise un processus complexe d'associations statistiques sur des millions de jetons pour deviner le mot suivant le plus probable dans une séquence donnée, sans aucune compréhension réelle de l'information sous-jacente transmise.
Cela peut poser des problèmes lorsqu'une réponse factuelle unique à une question n'est pas forcément reflétée avec précision dans les données d'apprentissage. En fait, The Markup a déclaré qu'au moins un de ses tests a abouti à une réponse correcte à la même question sur l'acceptation des bons de logement de la section 8 (même si "dix employés distincts de Markup" ont obtenu une réponse incorrecte en répétant la même question).
Le Chatbot MyCity - qui est clairement étiqueté comme un produit "Beta" - dit aux utilisateurs qui prennent la peine de lire les avertissements qu'il « peut occasionnellement produire un contenu incorrect, nuisible ou biaisé » et que les utilisateurs ne doivent pas « se fier à ses réponses comme substitut à un conseil professionnel ». Mais la page indique aussi clairement qu'elle est « formée pour vous fournir des informations officielles sur les affaires de la ville de New York » et qu'elle est vendue comme un moyen « d'aider les propriétaires d'entreprises à se repérer dans les règles gouvernementales ».
Andrew Rigie, directeur exécutif de la NYC Hospitality Alliance, a déclaré au Markup qu'il avait lui-même rencontré des inexactitudes de la part du chatbot et qu'au moins un propriétaire d'entreprise locale lui avait rapporté la même chose. Mais Leslie Brown, porte-parole du bureau de la technologie et de l'innovation de la ville de New York, a déclaré au Markup que le chatbot « a déjà fourni à des milliers de personnes des réponses précises et opportunes » et que « nous continuerons à nous concentrer sur l'amélioration de cet outil afin de mieux soutenir les petites entreprises à travers la ville ».
Conclusion
Le rapport du Markup met en évidence le danger que représentent les gouvernements et les entreprises qui mettent à la disposition du public des chatbots avant que leur exactitude et leur fiabilité n'aient été pleinement vérifiées. Le mois dernier, un tribunal a contraint Air Canada à honorer une politique de remboursement frauduleuse inventée par un chatbot disponible sur son site web. Un récent rapport du Washington Post a révélé que les chatbots intégrés dans les principaux logiciels de préparation des déclarations de revenus fournissaient « des réponses aléatoires, trompeuses ou inexactes » à de nombreuses questions relatives aux impôts. Enfin, des ingénieurs astucieux auraient réussi à tromper les chatbots des concessionnaires automobiles en leur faisant accepter une « offre juridiquement contraignante - sans retour en arrière » pour une voiture à un dollar.
[TWITTER]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">I just bought a 2024 Chevy Tahoe for $1. <a href="https://t.co/aq4wDitvQW">pic.twitter.com/aq4wDitvQW</a></p>— Chris Bakke (@ChrisJBakke) <a href="https://twitter.com/ChrisJBakke/status/1736533308849443121?ref_src=twsrc%5Etfw">December 17, 2023</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script> [/TWITTER]
Ce type de problèmes incite déjà certaines entreprises à abandonner les chatbots généralisés alimentés par le LLM et à se tourner vers des modèles de génération améliorée par récupération plus spécifiquement formés, qui ont été réglés uniquement sur un petit ensemble d'informations pertinentes. Ce type d'orientation pourrait devenir d'autant plus important si la FTC réussit à rendre les chatbots responsables d'informations « fausses, trompeuses ou dénigrantes ».
Sources : présentation du chatbot IA, The City, The Markup, Kathryn Tewson (1, 2)
Et vous ?
La responsabilité des développeurs : Qui devrait être tenu responsable lorsque les chatbots fournissent des informations incorrectes ou illégales ? Les développeurs, les entreprises ou les utilisateurs ?
Réglementation et surveillance : Comment pouvons-nous mieux réglementer et surveiller les systèmes d’IA pour éviter de telles erreurs ? Quelles mesures devraient être mises en place pour garantir que les chatbots fournissent des informations précises et conformes à la loi ?
Éducation des utilisateurs : Comment pouvons-nous sensibiliser les utilisateurs aux limites et aux risques des chatbots ? Quels efforts peuvent être déployés pour éduquer les utilisateurs sur la façon de vérifier les informations fournies par ces systèmes automatisés ?
Transparence et explications : Les chatbots devraient-ils être tenus de fournir des explications sur la base de leurs réponses ? Comment pouvons-nous rendre les systèmes d’IA plus transparents pour les utilisateurs ?