IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une entreprise IT recueille des conversations intimes entre amants, les utilisent pour entraîner un modèle d'IA
Qui a commencé à révéler les données et à faire des commentaires peu recommandables

Le , par Bill Fassinou

59PARTAGES

6  0 
Après avoir consenti à la collecte de nos données personnelles à travers les plateformes en lignes ou les applications de tout type par les entreprises, ces dernières restent relativement vagues sur le traitement qui en est fait, la façon dont cela est fait et les tiers avec qui ces données peuvent être partagées. En Corée du Sud, une entreprise connue sous le nom de ScatterLab a recueilli des conversations intimes entre amants sans en informer les utilisateurs, puis a utilisé ces données pour créer un agent conversationnel alimenté par l'IA appelé Lee-Luda. Les données ont servi à entraîner le modèle d'IA.

Les données personnelles : une utilisation éthique et responsable est-elle possible ?

À mesure que les modèles de traitement du langage naturel évoluent, les entreprises ont besoin davantage de données pour les entraîner. Le traitement du langage naturel (TLN, ou NLP en anglais) est la capacité pour un programme informatique de comprendre et d'interpréter le langage humain. Ainsi, plus la base de données sur laquelle ce programme est formé est grande, et plus il est performant. C'est le cas par exemple de [URL="https://intelligence-artificielle.developpez.com/actu/313839/"]GPT-3[/UTL], le dernier modèle de traitement du langage naturel d'OpenAI. Il est actuellement le plus gros modèle de traitement du langage naturel jamais entraîné, avec environ 175 milliards de paramètres.



Il est conçu principalement pour la [URL="https://www.developpez.com/actu/308068/"]génération de texte[/UTL], notamment pour la création de chatbots devant servir d'assistants personnels, mais OpenAI lui cite également plusieurs autres cas d'utilisation. Malgré la taille du jeu de données de GPT-3, les chatbots qu'il alimente montrent encore certaines faiblesses pendant les conversations avec un humain. Par exemple, un chatbot médical basé sur GPT-3 conçu par la startup française Nabla a, lors d'un test, conseillé à un patient simulé de se suicider, alors qu'il devait l'aider à quitter l'état d'anxiété et de détresse dans lequel il se trouvait.

Pour en revenir à ScatterLab, tout a commencé en 2016 lorsque l'entreprise a lancé "Science of Love" et l'a présentée comme une application "scientifique et axée sur les données" qui prédit le degré d'affection dans les relations. L'un des services les plus populaires de l'application consistait à utiliser l'apprentissage automatique pour déterminer si quelqu'un vous aime en analysant les conversations de messagerie de KakaoTalk. Cette dernière est l'application de messagerie numéro 1 en Corée du Sud, qu'environ 90 % de la population utilise. Les utilisateurs payaient environ 4,50 dollars par analyse.

Les utilisateurs de "Science of Love" (SoL) devaient télécharger leurs journaux de conversation en utilisant la fonction de sauvegarde de KakaoTalk et les soumettre à l'analyse. Ensuite, l'application parcourait les conversations sur le messager et fournissait un rapport indiquant si l'interlocuteur avait des sentiments romantiques envers l'utilisateur. Elle se base sur des statistiques telles que le temps de réponse moyen, le nombre de fois où chaque personne envoie un texto en premier, et les types de phrases et d'émojis utilisés. En juin 2020, SoL avait reçu environ 2,5 millions de téléchargements en Corée du Sud et 5 millions au Japon.

« Parce que j'avais l'impression que SoL me comprenait, je me sentais en sécurité et je sympathisais. Cela m'a fait du bien parce que j'avais l'impression d'avoir un médecin de l'amour à mes côtés », a écrit un utilisateur nommé Mung Yeoreum dans une critique de l'application sur Google Play. Avec ce succès, ScatterLab a voulu "aider" davantage les utilisateurs de SoL en leur présentant le 23 décembre 2020, un service de chatbot IA appelé Lee-Luda. Selon l'entreprise, Lee-Luda a été formé à partir de plus de 10 milliards de journaux de conversation de SoL. Le public cible du chatbot était les adolescents et les jeunes adultes.

Selon les rapports sur le sujet, Lee-Luda est conçu comme une jeune femme de 20 ans qui souhaite devenir une véritable amie pour tout le monde. Il a vite gagné en popularité et a tenu des conversations avec plus de 750 000 utilisateurs au cours de ses deux premières semaines. Le PDG de ScatterLab a déclaré que l'objectif de la société était de créer « un chatbot IA que les gens préfèrent comme partenaire de conversation plutôt qu'une personne ». Cependant, le service est rapidement devenu un cauchemar pour les utilisateurs lorsqu'il a commencé par révéler des informations personnelles issues des journaux de conversation de SoL.

Les données personnelles doivent-elles servir de jeu de données pour l'IA ?

Deux semaines après le lancement de Lee-Luda, les gens ont commencé à se demander si les données étaient suffisamment raffinées, car il a commencé à utiliser un langage injurieux à l'égard de certains groupes sociaux (LGBTQ+, personnes handicapées, féministes, etc.) et a fait des commentaires sexuellement explicites à un certain nombre d'utilisateurs. ScatterLab a expliqué que le chatbot n'a pas appris ce comportement des utilisateurs avec lesquels il a interagi pendant les deux semaines de service, mais plutôt de l'ensemble de données d'entraînement original (les journaux de conversation de SoL).

En d'autres termes, ScatterLab n'avait pas entièrement supprimé ou filtré le langage inapproprié ou les conversations intimes et sexuelles de l'ensemble de données. Il est aussi apparu rapidement que l'énorme ensemble de données d'entraînement comprenait des informations personnelles et sensibles. Cette révélation est apparue lorsque le chatbot a commencé à exposer les noms, surnoms et adresses des personnes dans ses réponses. L'entreprise a admis que ses développeurs « n'ont pas réussi à supprimer certaines informations personnelles en fonction du contexte ». Certaines critiques jugent cela inacceptable.

Autre chose, ScatterLab a affirmé que l'ensemble de données utilisé pour entraîner Lee-Luda « ne comprenait pas de noms, de numéros de téléphone, d'adresses et d'e-mails qui pourraient être utilisés pour vérifier une personne ». Cela dit, des développeurs sud-coréens ont réfuté la déclaration de l'entreprise, affirmant que Lee-Luda n'aurait pas pu apprendre à inclure de telles informations personnelles dans ses réponses si elles n'existaient pas dans l'ensemble de données d'entraînement. Des chercheurs en IA ont également fait remarquer qu'il est possible de récupérer l'ensemble de données d'entraînement du chatbot.

Selon eux, si des informations personnelles existaient dans l'ensemble de données d'entraînement, elles peuvent être extraites en interrogeant le chatbot. De même, les rapports indiquent qu'il a été découvert que ScatterLab avait, avant la publication de Lee-Luda, téléchargé sur GitHub un ensemble d'entraînement de 1 700 phrases, qui faisait partie du jeu de données plus important qu'il avait collecté. Cet ensemble de données d'entraînement GitHub contiendrait les noms de plus de 20 personnes, ainsi que les lieux où elles se sont rendues, leur statut relationnel et quelques-unes de leurs informations médicales.

Dans Tensorflow Korea, une communauté Facebook de développeurs d'IA, un développeur a révélé que ces données KakaoTalk contenant des informations privées étaient disponibles sur GitHub depuis près de six mois. Le PDG de ScatterLab a déclaré par la suite que l'entreprise ne connaissait pas ce fait jusqu'à ce qu'une inspection interne ait lieu après que le problème s'est posé. ScatterLab a publié des déclarations de clarification de l'incident dans le but d'apaiser les inquiétudes du public, mais elles ont fini par rendre les gens encore plus furieux.

Les déclarations de la société indiquaient que « Lee-Luda est une IA enfantine qui vient de commencer à converser avec les gens, qu'elle a beaucoup à apprendre et qu'elle apprendra quelle est la meilleure réponse et la réponse la plus appropriée par essais et erreurs ». Cependant, est-il éthique de violer la vie privée et la sécurité des personnes pour le processus d'apprentissage par "essais et erreurs" d'un chatbot ?

A-t-on besoin de lois qui régissent le traitement des données personnelles ?

Si cet incident a fait grand bruit en Corée du Sud, il a suscité très peu d'attention ailleurs. Mais les analystes estiment qu'il a mis en lumière la tendance générale de l'industrie de l'IA, où les individus ont peu de contrôle sur la manière dont leurs informations personnelles sont traitées et utilisées une fois collectées. Il a fallu près de cinq ans pour que les utilisateurs reconnaissent que leurs données personnelles étaient utilisées pour entraîner un modèle de chatbot sans leur consentement. Ils ne savaient pas non plus que ScatterLab partageait leurs conversations privées sur une plateforme comme GitHub, à laquelle tout le monde peut avoir accès.

En fin de compte, il a été relativement simple pour les utilisateurs de Science of Love de remarquer que ScatterLab avait compromis la confidentialité de leurs données pour entraîner Lee-Luda. Dès que le chatbot a commencé à écrire des commentaires non filtrés et révéler des informations personnelles, ils ont tout de suite cherché à savoir si leurs informations personnelles étaient utilisées à mauvais escient et compromises. Cependant, selon les experts, les grandes entreprises technologiques sont généralement bien plus aptes à cacher ce qu'elles font réellement des données des utilisateurs.

Ils ont également déclaré que ces entreprises savent bien s'y prendre pour empêcher les utilisateurs de contrôler et de surveiller leurs propres données. « Une fois que vous avez donné, vous ne pouvez plus revenir en arrière », ont-ils fait remarquer. Par ailleurs, les analystes indiquent aussi que, s'il est facile de considérer l'incident de ScatterLab comme un simple cas de mauvaise gestion d'une startup, cet incident est également le résultat de la négligence d'une autre grande entreprise. Kakao, la société mère de KakaoTalk, serait restée silencieuse tout au long de l'incident de ScatterLab alors que ses utilisateurs en étaient les victimes.

« On pourrait souhaiter qu'une grande entreprise comme Kakao soit plus proactive lorsque les droits de ses utilisateurs sont violés par une autre entreprise. Toutefois, Kakao n'a rien dit », ont-ils déclaré. Selon eux, l'un des plus grands défis que posent les Big Data dans le domaine de l'IA est que les informations personnelles d'un individu ne sont plus seulement détenues et utilisées par un seul tiers dans un but précis, mais qu'elles « persistent dans le temps, voyageant entre les systèmes et affectant les individus à long terme de la main d'autrui ». Ils donnent l'exemple de Cambridge Analytica avec les données des utilisateurs de Facebook en 2016.

Ces derniers estiment qu'il est extrêmement préoccupant qu'une entreprise technologique aussi importante que Kakao n'ait pas prévu les implications et les dangers de la fonction de sauvegarde de KakaoTalk, dont ScatterLab a profité pour obtenir les données des utilisateurs de KakaoTalk. « Ce qui est encore plus alarmant, c'est que Kakao a laissé cet incident non traité alors qu'il résultait clairement de l'utilisation abusive de ses propres données. En ce sens, l'attitude de Kakao à l'égard de la confidentialité des données de ses utilisateurs n'était pas très différente de celle de ScatterLab : négligente », ont-ils déclaré.

Ils reconnaissent toutefois que les lois sur la protection des données sont lentes à rattraper la vitesse du progrès technologique. La question est donc de savoir si l'industrie de l'intelligence artificielle et les entreprises technologiques peuvent innover pour proposer et respecter des directives éthiques plus complètes et détaillées qui minimisent les dommages causés aux individus et à la société.

Source : Déclarations de ScatterLab (1, 2), Rapport d'étude sur l'extraction du jeu de données d'entraînement de l'IA d'un chatbot, Avis des utilisateurs de Science of Love sur le Google Play Store

Et vous ?

Quel est votre avis sur le sujet ? ScatterLab avait-il le droit de former son IA à partir de ce jeu de données ?
Quelles solutions proposez-vous pour réduire les utilisations abusives des données personnelles par les entreprises ?
Pensez-vous que les lois actuelles suffisent à protéger les données personnelles ? Sinon, que proposez-vous d'ajouter comme mesures ?

Voir aussi

Violation de données : Facebook n'a pas averti les utilisateurs des risques connus avant 2018 et se retrouve de nouveau poursuivi en justice

GPT-3, le système de génération de texte d'OpenAI, produit désormais 4,5 milliards de mots par jour, avec une précision de 91 %

Un faux blog d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes

Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider lors d'un test réalisé par Nabla

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de TotoParis
Membre expérimenté https://www.developpez.com
Le 07/04/2021 à 16:22
ScatterLabs a failli verser dans la scatologie.
0  0