OpenAI se prépare à affronter les puissants chiens de garde européens en matière de protection de la vie privée. En effet, lorsqu’OpenAI a dévoilé son modèle de langage GPT-3 en juillet 2020, il a offert un aperçu des données utilisées pour entraîner le grand modèle de langage. Selon un document technique, des millions de pages extraites du Web, de posts Reddit, de livres et autres sont utilisés pour créer le système de texte génératif. Ces données contiennent certaines des informations personnelles que vous partagez en ligne. Elles posent aujourd'hui des problèmes à OpenAI, les régulateurs estimant que l'entreprise n'a pas le doit de les utiliser.
Le 31 mars, l'autorité italienne de protection des données (Garante per la Protezione dei Dati Personali) a pris une décision d'urgence temporaire demandant à OpenAI de cesser d'utiliser les informations personnelles de millions d'Italiens incluses dans ses données de formation. Selon le régulateur italien, OpenAI n'a pas le droit légal d'utiliser les informations personnelles des personnes dans ChatGPT. En réponse, OpenAI a temporairement empêché les Italiens d'accéder à son chatbot d'IA pendant qu'il fournit des réponses aux autorités italiennes. Il s'agit de la première mesure prise à l'encontre de ChatGPT par un organisme de réglementation occidental.
Le modèle GPT-2 d'OpenAI a utilisé 40 Go de texte, tandis que GPT-3 en a utilisé 570 Go. OpenAI a refusé de divulguer les données utilisées pour le modèle GPT-4, ce qui a frustré les chercheurs. L'autorité italienne de régulation des données a interdit le ChatGPT au motif qu'il enfreignait les règles du RGPD. La décision de l'Italie a déclenché des enquêtes similaires en France, en Allemagne, en Irlande et au Canada, incitant le Conseil de protection des données de l'UE à mettre en place un groupe de travail pour la coordination et l'application concernant ChatGPT. Des parties civiles européennes ont également intenté des actions en justice contre OpenAI.
Après son interdiction temporaire par l'Italie, OpenAI dispose maintenant de moins de deux semaines pour mettre en œuvre des mesures correctives. Cependant, les experts juridiques européens prévoient qu'il pourrait être presque impossible pour OpenAI de se conformer aux réglementations italiennes et aux exigences plus larges du RGPD. Le non-respect de ces règles peut entraîner de graves conséquences, allant de pénalités financières à une interdiction pure et simple de ChatGPT à l'échelle du pays. Mais la tâche s'annonce compliquée pour l'entreprise. L'Italie a demandé à OpenAI de mettre en œuvre plusieurs mesures correctives, notamment :
- l'obtention du consentement des personnes pour la collecte de leurs données ou la preuve d'un "intérêt légitime" dans la collecte des données ;
- expliquer aux utilisateurs comment ChatGPT utilise leurs données ;
- permettre aux utilisateurs de corriger les inexactitudes les concernant produites par le chatbot ;
- permettre aux utilisateurs de demander l'effacement de leurs données ;
- offrir aux utilisateurs la possibilité de révoquer leur consentement à l'utilisation de leurs données par ChatGPT.
Les experts juridiques européens estiment que la collecte de données par OpenAI est la question de conformité la plus litigieuse. Il est peu probable qu'OpenAI puisse prouver qu'il a obtenu le consentement des utilisateurs pour les données utilisées pour entraîner ses modèles d'IA. Mais le test de l'"intérêt légitime" pose également un problème, car les entreprises doivent présenter des raisons rigoureuses pour justifier l'utilisation ou la conservation de données sans consentement. Le régulateur européen des données cite des scénarios tels que la prévention de la fraude, la sécurité des réseaux et la prévention du crime comme des raisons valables.
Margaret Mitchell, chercheuse en IA, a expliqué : « OpenAI va trouver presque impossible d'identifier les données des individus et de les retirer de ses modèles ». Elle était auparavant coresponsable de l'éthique de l'IA chez Google. Aujourd'hui, Mitchell est responsable de l'éthique chez Hugging Face, une entreprise américaine qui développe des outils pour créer des applications utilisant l'apprentissage automatique. Cependant, il est important de noter qu'OpenAI n'est pas la seule entreprise concernée. La collecte désordonnée des données est un problème qui touche l'ensemble de l'industrie de l'IA, y compris les acteurs comme Meta et Google.
Historiquement, les entreprises d'IA ont considéré la collecte de données comme un moyen d'arriver à leurs fins, négligeant souvent l'exactitude et l'étiquetage. Pour recueillir les quantités massives de données nécessaires à l'entraînement de leurs modèles, les sociétés d'IA achètent des données en vrac à des fournisseurs, utilisent des racleurs sans discernement et dépendent de sous-traitants pour le filtrage de base et la vérification des erreurs. Une enquête publiée récemment a rapporté que de nombreuses entreprises d'IA, y compris les acteurs tels que Google et Meta, ignorent le contenu de leurs ensembles de données d'entraînement.
Même l'ensemble de données "Colossal Clean Crawled Corpus" (C4) de Google, fortement filtré et utilisé pour l'entraînement de divers modèles d'IA, s'est avéré contenir du contenu provenant du forum Stormfront, fortement peuplé de suprémacistes blancs, et du forum 4chan, réputé pour sa modération laxiste. Nithya Sambasivan, chercheur chez Google, a conclu dans une étude que les pratiques en matière de données sont "désordonnées, longues et opaques". En fin de compte, Sambasivan a noté que ces défis sont dus au fait que "tout le monde veut faire le travail de modélisation, pas le travail de données". Mais l'UE pourrait bientôt exiger un changement.
En outre, selon d'autres sources, OpenAI marche avec une cible dans le dos : l'entreprise n'a pas établi de siège local dans l'un des 27 pays de l'UE, ce qui signifie que l'autorité de protection des données de n'importe quel pays membre peut lancer de nouvelles enquêtes et appliquer des interdictions. Précédemment, Google a dû s'acquitter d'une amende de 50 millions d'euros en France au titre du RGPD, imposée avant que le géant américain de la technologie ne centralise officiellement son dispositif juridique européen en Irlande, dont l'autorité de la protection des données (DPC) fait office de régulateur principal des entreprises dans l'UE.
TikTok a également fait l'objet de plusieurs enquêtes sur la protection de la vie privée et d'amendes de la part des autorités néerlandaises, italiennes et françaises avant de s'installer légalement en Irlande en 2021. Les autorités de l'UE de régulation des données réfléchissent aux prochaines mesures à prendre pour examiner les abus présumés, comme leurs homologues italiens. La DPC a déclaré qu'elle se coordonnera avec tous les régulateurs de l'UE en ce qui concerne cette question. L'autorité belge de protection des données a également déclaré que les infractions potentielles de ChatGPT "devraient être discutées au niveau européen".
En France, la Commission nationale de l'informatique et des libertés (CNIL) a enregistré au moins deux plaintes contre ChatGPT, pour des raisons de violation de la vie privée, y compris du RGPD. En Norvège, les autorités ont indiqué qu'ils n'ont lancé aucune enquête sur ChatGPT à ce jour. Toutefois, Tobias Judin, responsable du travail international pour l'organisme de réglementation de la protection des données du pays, Datatilsynet, a déclaré que la Norvège n'excluait rien pour l'avenir. OpenAI a réfuté les accusations de violation du RGPD, mais le PDG Sam Altman a déclaré sur Twitter que l'entreprise était prête à collaborer avec les autorités de l'UE.
Source : l'autorité italienne de protection des données (GPDP)
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des accusations de violation du RGPD qui visent OpenAI ?
Que pensez-vous des exigences de l'autorité italienne de la protection des données ? Sont-elles réalistes ?
Selon vous, OpenAI est-il en mesure de se conformer à ces exigences dans le délai imparti ?
Selon vous, OpenAI parviendra-t-il à se conformer aux exigences du RGPD ? Pourquoi ?
Quid des concurrents d'OpenAI qui sont confrontés aux mêmes problèmes de conformité au RGPD ?
Voir aussi
OpenAI, le développeur de ChatGPT, va proposer des mesures correctives concernant l'interdiction en Italie, et s'engage à plus de transparence sur le traitement des données des utilisateurs
L'Allemagne envisage d'emboîter le pas à l'Italie en interdisant l'utilisation de ChatGPT, évoquant une violation présumée des règles de confidentialité par le chatbot d'IA d'OpenAI
Les régulateurs européens de la vie privée surveillent de près la suspension de ChatGPT en Italie. Plusieurs envisageraient de lui emboîter le pas, évoquant des problèmes de confidentialité
ChatGPT bientôt interdit en France comme en Italie ? La CNIL enregistre les premières plaintes contre le logiciel d'IA d'OpenAI, la société est accusée d'avoir violé plusieurs dispositions du RGPD