Le chatbot d'IA ChatGPT d'OpenAI confronté à des problèmes de conformité au règlement européen sur la protection des données,

Les experts affirment qu'OpenAI aura du mal à se conformer au RGPD

Le 21 avril 2023 à 15:42, par Bill Fassinou

46PARTAGES

OpenAI a été sommé en Italie de mettre ChatGPT en conformité avec le règlement général sur la protection des données (RGPD), mais les experts juridiques estiment que la perspective d'adhérer aux réglementations de l'UE est "proche de l'impossible" pour le laboratoire d'IA de San Francisco. La position italienne n'est que le début des ennuis de ChatGPT, qui fait l'objet de plusieurs plaintes en matière de violation de la vie privée dans tout le bloc et exploite une technologie de pointe qui irrite les gouvernements en raison de risques allant de la violation des données à la désinformation, en passant par la cybercriminalité, la fraude et la tricherie aux tests scolaires.

OpenAI se prépare à affronter les puissants chiens de garde européens en matière de protection de la vie privée. En effet, lorsqu’OpenAI a dévoilé son modèle de langage GPT-3 en juillet 2020, il a offert un aperçu des données utilisées pour entraîner le grand modèle de langage. Selon un document technique, des millions de pages extraites du Web, de posts Reddit, de livres et autres sont utilisés pour créer le système de texte génératif. Ces données contiennent certaines des informations personnelles que vous partagez en ligne. Elles posent aujourd'hui des problèmes à OpenAI, les régulateurs estimant que l'entreprise n'a pas le doit de les utiliser.

Le 31 mars, l'autorité italienne de protection des données (Garante per la Protezione dei Dati Personali) a pris une décision d'urgence temporaire demandant à OpenAI de cesser d'utiliser les informations personnelles de millions d'Italiens incluses dans ses données de formation. Selon le régulateur italien, OpenAI n'a pas le droit légal d'utiliser les informations personnelles des personnes dans ChatGPT. En réponse, OpenAI a temporairement empêché les Italiens d'accéder à son chatbot d'IA pendant qu'il fournit des réponses aux autorités italiennes. Il s'agit de la première mesure prise à l'encontre de ChatGPT par un organisme de réglementation occidental.

Le modèle GPT-2 d'OpenAI a utilisé 40 Go de texte, tandis que GPT-3 en a utilisé 570 Go. OpenAI a refusé de divulguer les données utilisées pour le modèle GPT-4, ce qui a frustré les chercheurs. L'autorité italienne de régulation des données a interdit le ChatGPT au motif qu'il enfreignait les règles du RGPD. La décision de l'Italie a déclenché des enquêtes similaires en France, en Allemagne, en Irlande et au Canada, incitant le Conseil de protection des données de l'UE à mettre en place un groupe de travail pour la coordination et l'application concernant ChatGPT. Des parties civiles européennes ont également intenté des actions en justice contre OpenAI.

Après son interdiction temporaire par l'Italie, OpenAI dispose maintenant de moins de deux semaines pour mettre en œuvre des mesures correctives. Cependant, les experts juridiques européens prévoient qu'il pourrait être presque impossible pour OpenAI de se conformer aux réglementations italiennes et aux exigences plus larges du RGPD. Le non-respect de ces règles peut entraîner de graves conséquences, allant de pénalités financières à une interdiction pure et simple de ChatGPT à l'échelle du pays. Mais la tâche s'annonce compliquée pour l'entreprise. L'Italie a demandé à OpenAI de mettre en œuvre plusieurs mesures correctives, notamment :

l'obtention du consentement des personnes pour la collecte de leurs données ou la preuve d'un "intérêt légitime" dans la collecte des données ;
expliquer aux utilisateurs comment ChatGPT utilise leurs données ;
permettre aux utilisateurs de corriger les inexactitudes les concernant produites par le chatbot ;
permettre aux utilisateurs de demander l'effacement de leurs données ;
offrir aux utilisateurs la possibilité de révoquer leur consentement à l'utilisation de leurs données par ChatGPT.

Les experts juridiques européens estiment que la collecte de données par OpenAI est la question de conformité la plus litigieuse. Il est peu probable qu'OpenAI puisse prouver qu'il a obtenu le consentement des utilisateurs pour les données utilisées pour entraîner ses modèles d'IA. Mais le test de l'"intérêt légitime" pose également un problème, car les entreprises doivent présenter des raisons rigoureuses pour justifier l'utilisation ou la conservation de données sans consentement. Le régulateur européen des données cite des scénarios tels que la prévention de la fraude, la sécurité des réseaux et la prévention du crime comme des raisons valables.

Margaret Mitchell, chercheuse en IA, a expliqué : « OpenAI va trouver presque impossible d'identifier les données des individus et de les retirer de ses modèles ». Elle était auparavant coresponsable de l'éthique de l'IA chez Google. Aujourd'hui, Mitchell est responsable de l'éthique chez Hugging Face, une entreprise américaine qui développe des outils pour créer des applications utilisant l'apprentissage automatique. Cependant, il est important de noter qu'OpenAI n'est pas la seule entreprise concernée. La collecte désordonnée des données est un problème qui touche l'ensemble de l'industrie de l'IA, y compris les acteurs comme Meta et Google.

Historiquement, les entreprises d'IA ont considéré la collecte de données comme un moyen d'arriver à leurs fins, négligeant souvent l'exactitude et l'étiquetage. Pour recueillir les quantités massives de données nécessaires à l'entraînement de leurs modèles, les sociétés d'IA achètent des données en vrac à des fournisseurs, utilisent des racleurs sans discernement et dépendent de sous-traitants pour le filtrage de base et la vérification des erreurs. Une enquête publiée récemment a rapporté que de nombreuses entreprises d'IA, y compris les acteurs tels que Google et Meta, ignorent le contenu de leurs ensembles de données d'entraînement.

Même l'ensemble de données "Colossal Clean Crawled Corpus" (C4) de Google, fortement filtré et utilisé pour l'entraînement de divers modèles d'IA, s'est avéré contenir du contenu provenant du forum Stormfront, fortement peuplé de suprémacistes blancs, et du forum 4chan, réputé pour sa modération laxiste. Nithya Sambasivan, chercheur chez Google, a conclu dans une étude que les pratiques en matière de données sont "désordonnées, longues et opaques". En fin de compte, Sambasivan a noté que ces défis sont dus au fait que "tout le monde veut faire le travail de modélisation, pas le travail de données". Mais l'UE pourrait bientôt exiger un changement.

En outre, selon d'autres sources, OpenAI marche avec une cible dans le dos : l'entreprise n'a pas établi de siège local dans l'un des 27 pays de l'UE, ce qui signifie que l'autorité de protection des données de n'importe quel pays membre peut lancer de nouvelles enquêtes et appliquer des interdictions. Précédemment, Google a dû s'acquitter d'une amende de 50 millions d'euros en France au titre du RGPD, imposée avant que le géant américain de la technologie ne centralise officiellement son dispositif juridique européen en Irlande, dont l'autorité de la protection des données (DPC) fait office de régulateur principal des entreprises dans l'UE.

TikTok a également fait l'objet de plusieurs enquêtes sur la...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :