« Je suis très inquiète », déclare Sandra Wachter, qui étudie la technologie et la réglementation à l'Université d'Oxford, au Royaume-Uni, et n'a pas participé à la recherche. « Si nous sommes maintenant dans une situation où les experts ne sont pas en mesure de déterminer ce qui est vrai ou non, nous perdons l'intermédiaire dont nous avons désespérément besoin pour nous guider à travers des sujets compliqués », ajoute-t-elle.
ChatGPT crée un texte réaliste en réponse aux invites de l'utilisateur. Il s'agit d'un « grand modèle de langage », un système basé sur des réseaux de neurones qui apprennent à effectuer une tâche en assimilant d'énormes quantités de texte généré par l'homme. La société de logiciels OpenAI, basée à San Francisco, en Californie, a publié l'outil le 30 novembre.
Depuis sa sortie, les chercheurs se sont attaqués aux problèmes éthiques entourant son utilisation, car une grande partie de sa production peut être difficile à distinguer du texte écrit par l'homme.
C'est peut-être l'une des raisons qui a motivé la décision de l'International Conference on Machine Learning (ICML), l'une des conférences sur l'apprentissage automatique les plus prestigieuses au monde, qui a interdit aux auteurs d'utiliser des outils d'IA comme ChatGPT pour rédiger des articles scientifiques. L'ICML a déclaré : « Les articles qui incluent du texte généré à partir d'un modèle de langage à grande échelle (LLM) tel que ChatGPT sont interdits à moins que le texte produit ne soit présenté dans le cadre de l'analyse expérimentale de l'article ». La nouvelle a suscité de nombreuses discussions sur les réseaux sociaux, des universitaires et des chercheurs en IA défendant et critiquant la politique. Les organisateurs de la conférence ont répondu en publiant une déclaration plus longue expliquant leur pensée.
Selon l'ICML, la montée en puissance de modèles de langage d'IA accessibles au public comme ChatGPT représente un développement « excitant » qui s'accompagne néanmoins de « conséquences imprévues [et] de questions sans réponse ». L'ICML estime que celles-ci incluent des questions sur qui possède la sortie de ces systèmes (ils sont formés sur des données publiques, qui sont généralement collectées sans consentement et régurgitent parfois ces informations textuellement) et si le texte et les images générés par l'IA doivent être « considérés comme nouveaux ou simples dérivés de travaux existants ».
Cette dernière question est liée à un débat délicat sur la paternité, c'est-à-dire qui est considéré comme l'auteur d'un texte généré par l'IA ? La machine, son développeur ou son utilisateur ? Ceci est particulièrement important étant donné que l'ICML n'interdit que les textes « entièrement produits » par l'IA. Les organisateurs de la conférence disent qu'ils n'interdisent pas l'utilisation d'outils comme ChatGPT « pour éditer ou peaufiner le texte écrit par l'auteur » et notent que de nombreux auteurs ont déjà utilisé des « outils d'édition semi-automatisés » comme le logiciel de correction grammaticale Grammarly à cette fin.
Des scientifiques parfois incapables de déterminer quand du texte a été généré par ChatGPT
Des scientifiques ont fait une prépublication et un éditorial à l'aide de ChatGPT. Voici le résumé de la prépublication (la première partie a été générée par chatGPT et la seconde par les scientifiques) :
L'intelligence artificielle (IA) a le potentiel de révolutionner le processus de découverte de médicaments, offrant une efficacité, une précision et une vitesse améliorées. Cependant, l'application réussie de l'IA dépend de la disponibilité de données de haute qualité, de la prise en compte des préoccupations éthiques et de la reconnaissance des limites des approches basées sur l'IA. Dans cet article, les avantages, les défis et les inconvénients de l'IA dans ce domaine sont passés en revue, et des stratégies et approches possibles pour surmonter les obstacles actuels sont proposées. L'utilisation de l'augmentation des données, l'IA explicable et l'intégration de l'IA aux méthodes expérimentales traditionnelles, ainsi que les avantages potentiels de l'IA dans la recherche pharmaceutique sont également discutés. Dans l'ensemble, cette revue met en évidence le potentiel de l'IA dans la découverte de médicaments et donne un aperçu des défis et des opportunités pour réaliser son potentiel dans ce domaine.
Remarque des auteurs humains : cet article a été créé pour tester la capacité de ChatGPT, un chatbot basé sur le modèle de langage GPT-3.5, à aider les auteurs humains à rédiger des articles de synthèse. Le texte généré par l'IA suivant nos instructions (voir Informations complémentaires) a été utilisé comme point de départ, et sa capacité à générer automatiquement du contenu a été évaluée. Après avoir procédé à un examen approfondi, les auteurs humains ont pratiquement réécrit le manuscrit, s'efforçant de maintenir un équilibre entre la proposition originale et les critères scientifiques. Les avantages et les limites de l'utilisation de l'IA à cette fin sont abordés dans la dernière section.
Remarque des auteurs humains : cet article a été créé pour tester la capacité de ChatGPT, un chatbot basé sur le modèle de langage GPT-3.5, à aider les auteurs humains à rédiger des articles de synthèse. Le texte généré par l'IA suivant nos instructions (voir Informations complémentaires) a été utilisé comme point de départ, et sa capacité à générer automatiquement du contenu a été évaluée. Après avoir procédé à un examen approfondi, les auteurs humains ont pratiquement réécrit le manuscrit, s'efforçant de maintenir un équilibre entre la proposition originale et les critères scientifiques. Les avantages et les limites de l'utilisation de l'IA à cette fin sont abordés dans la dernière section.
Les chercheurs ont demandé au chatbot de rédiger 50 résumés de recherche médicale basés sur une sélection publiée dans JAMA, The New England Journal of Medicine, The BMJ, The Lancet et Nature Medicine. Ils les ont ensuite comparés aux résumés originaux en les faisant passer à travers un détecteur de plagiat et un détecteur de sortie AI, et ils ont demandé à un groupe de chercheurs médicaux de repérer les résumés générés par IA.
Les résumés générés par ChatGPT ont traversé le vérificateur de plagiat : le score d'originalité médian était de 100 %, ce qui indique qu'aucun plagiat n'a été détecté. Le détecteur de sortie AI a repéré 66 % des résumés générés. Mais les relecteurs humains n'ont pas fait beaucoup mieux : ils n'ont identifié correctement que 68 % des résumés générés et 86 % des résumés authentiques. Ils ont incorrectement identifié 32 % des résumés générés comme étant réels et 14 % des résumés authentiques comme étant générés par l'IA.
« ChatGPT rédige des résumés scientifiques crédibles », déclarent Gao et ses collègues dans la prépublication. « Les limites de l'utilisation éthique et acceptable des grands modèles de langage pour aider l'écriture scientifique restent à déterminer ».
Wachter dit que si les scientifiques ne peuvent pas déterminer si la recherche est vraie, il pourrait y avoir des « conséquences désastreuses ». En plus d'être problématique pour les chercheurs, qui pourraient être entraînés dans des voies d'investigation erronées, parce que la recherche qu'ils lisent a été fabriquée, il y a « des implications pour la société dans son ensemble parce que la recherche scientifique joue un rôle si énorme dans notre société ». Par exemple, cela pourrait signifier que les décisions politiques fondées sur la recherche sont incorrectes, ajoute-t-elle.
Mais Arvind Narayanan, informaticien à l'Université de Princeton dans le New Jersey, déclare : « Il est peu probable qu'un scientifique sérieux utilise ChatGPT pour générer des résumés ». Il ajoute que le fait que les résumés générés puissent être détectés n'est « pas pertinent ». « La question est de savoir si l'outil peut générer un résumé précis et convaincant. Ce n'est pas possible, et donc l'avantage d'utiliser ChatGPT est minuscule, et l'inconvénient est important », dit-il.
Irene Solaiman, qui étudie l'impact social de l'IA chez Hugging Face, une société d'IA dont le siège est à New York et à Paris, craint toute dépendance à l'égard de grands modèles de langage pour la pensée scientifique. « Ces modèles sont formés sur des informations passées et le progrès social et scientifique peut souvent provenir d'une pensée, ou d'une ouverture à la pensée, différente du passé », ajoute-t-elle.
Les auteurs suggèrent que ceux qui évaluent les communications scientifiques, telles que les articles de recherche et les actes de conférence, devraient mettre en place des politiques pour éradiquer l'utilisation des textes générés par l'IA. Si les institutions choisissent d'autoriser l'utilisation de la technologie dans certains cas, elles doivent établir des règles claires concernant la divulgation.
Solaiman ajoute que dans les domaines où de fausses informations peuvent mettre en danger la sécurité des personnes, comme la médecine, les revues peuvent avoir à adopter une approche plus rigoureuse pour vérifier que les informations sont exactes.
Narayanan dit que les solutions à ces problèmes ne devraient pas se concentrer sur le chatbot lui-même, « mais plutôt sur les incitations perverses qui conduisent à ce comportement, comme les universités qui effectuent des examens d'embauche et de promotion en comptant les articles sans tenir compte de leur qualité ou de leur impact ».
En attendant, quelques outils sont déjà disponibles pour aider à détecter des textes générés par IA
Détecteur de sortie GPT-2
OpenAI impressionne Internet avec ses efforts pour reproduire l'intelligence humaine et les capacités artistiques depuis 2015. Mais en novembre dernier, la société est finalement devenue méga-virale avec la sortie du générateur de texte AI ChatGPT. Les utilisateurs de l'outil bêta ont publié des exemples de réponses textuelles générées par l'IA à des invites qui semblaient si légitimes qu'elles ont semé la peur dans le cœur des enseignants et ont même fait craindre à Google que l'outil ne tue son activité de recherche.
Si les ingénieurs d'OpenAI sont capables de créer un bot qui peut écrire aussi bien ou mieux que l'humain moyen, il va de soi qu'ils peuvent également créer un bot qui est meilleur que l'humain moyen pour détecter si le texte a été généré par IA.
La démo en ligne du modèle de détecteur de sortie GPT-2 vous permet de coller du texte dans une boîte et de voir immédiatement la probabilité que le texte ait été écrit par l'IA. Selon les recherches d'OpenAI, l'outil a un taux de détection relativement élevé, mais « doit être associé à des approches basées sur les métadonnées, au jugement humain et à l'éducation du public pour être plus efficace ».
GLTR (Giant Language model Test Room)
Lorsque OpenAI a publié GPT-2 en 2019, les gens du MIT-IBM Watson AI Lab et du Harvard Natural Language Processing Group ont uni leurs forces pour créer un algorithme qui tente de détecter si le texte a été écrit par un bot.
Un texte généré par ordinateur peut sembler avoir été écrit par un humain, mais un écrivain humain est plus susceptible de sélectionner des mots imprévisibles. En utilisant la méthode « il en faut un pour en connaître un », si l'algorithme GLTR peut prédire le mot suivant dans une phrase, alors il supposera que cette phrase a été écrite par un bot.
GPTZero
Durant la période des fêtes de fin d'années, Edward Tian était occupé à créer GPTZero, une application qui peut aider à déterminer si le texte a été écrit par un humain ou un bot. En tant qu'universitaire à Princeton, Tian comprend comment les professeurs d'université pourraient avoir un intérêt direct à détecter un « AIgiarism », ou un plagiat assisté par IA.
Tian dit que son outil mesure le caractère aléatoire des phrases ("perplexité" plus le caractère aléatoire global ("burstiness" pour calculer la probabilité que le texte ait été écrit par ChatGPT. Depuis qu'il a tweeté à propos de GPTZero le 2 janvier, Tian dit qu'il a déjà été approché par des sociétés à capital risque souhaitant investir et qu'il développera bientôt des versions mises à jour.
Filigrane (à venir)
En plus d'aborder le problème comme les détecteurs de plagiat l'ont fait dans le passé, OpenAI tente de résoudre le problème en filigranant tout le texte ChatGPT. Selon une récente conférence sur la sécurité de l'IA par le chercheur invité d'OpenAI, Scott Aaronson, les ingénieurs ont déjà construit un prototype fonctionnel qui ajoute un filigrane à tout texte créé par OpenAI.
« Fondamentalement, chaque fois que GPT génère un texte long, nous voulons qu'il y ait un signal secret autrement imperceptible dans ses choix de mots, que vous pouvez utiliser pour prouver plus tard que, oui, cela vient de GPT », explique Aaronson. L'outil utiliserait ce qu'il appelle une « fonction cryptographique pseudo-aléatoire ». Et seul OpenAI aurait accès à cette clé.
Source : prépublication
Et vous ?
Comprenez-vous que les scientifiques n'arrivent pas toujours à faire la différence entre les résumés générés par l'IA et les résumés originaux ?
Leur taux d'erreur vous semble acceptable ? Pourquoi ?
Quelles implications possibles si les scientifiques n'y arrivent pas à tous les coups ?
Que pensez-vous des propos d'Arvind Narayanan qui déclare : « Il est peu probable qu'un scientifique sérieux utilise ChatGPT pour générer des résumés », précisant que le fait que les résumés générés puissent être détectés ou non n'est « pas pertinent » puisque « La question est de savoir si l'outil peut générer un résumé précis et convaincant. Ce n'est pas possible, et donc l'avantage d'utiliser ChatGPT est minuscule, et l'inconvénient est important » ?
Voir aussi :
Lyon*: ChatGPT utilisé par la moitié des élèves de Master d'un professeur pour rédiger leurs devoirs. « Cette pratique m'inquiète. Elle pose un véritable problème d'intégration des savoirs »
CNET publie discrètement des articles entiers générés par l'IA et l'indique sur un descriptif déroulant, puis se ravise suite aux réactions
Une application de santé mentale critiquée pour avoir utilisé l'IA chatGPT pour prodiguer des conseils à 4000 utilisateurs, ces derniers ont donné une note élevée aux réponses de l'IA