IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Des chercheurs affirment que GPT-4 a réussi le test de Turing. Si la prouesse technique est remarquable
Des scientifiques font des critiques concernant l'approche trop simpliste de ce test

Le , par Stéphane le calme

33PARTAGES

10  0 
GPT-4, la dernière itération des modèles de langage de OpenAI, est réputée avoir réussi le test de Turing. Selon les chercheurs, cette version améliorée peut imiter le langage humain à un niveau indiscernable des vraies interactions humaines.

Nous interagissons avec l'intelligence artificielle (IA) en ligne non seulement plus que jamais, mais aussi plus que nous ne le pensons. Des chercheurs ont donc demandé à des personnes de converser avec quatre agents, dont un humain et trois types différents de modèles d'IA, pour voir si elles pouvaient faire la différence.

Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.

Les scientifiques ont décidé de reproduire ce test en demandant à 500 personnes de parler avec quatre répondants, dont un humain et le programme d'IA des années 1960 ELIZA, ainsi que GPT-3.5 et GPT-4, l'IA qui alimente ChatGPT. Les conversations duraient cinq minutes, après quoi les participants devaient dire s'ils pensaient parler à un humain ou à une IA. Dans l'étude, publiée le 9 mai sur le serveur arXiv, les scientifiques ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle linguistique (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.

« Les machines peuvent confabuler, rassembler des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l'Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d'IA expriment des faiblesses et des bizarreries semblables à celles de l'homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies ».

L'étude, qui s'appuie sur des décennies de tentatives pour faire passer le test de Turing à des agents d'IA, fait écho aux préoccupations communes selon lesquelles les systèmes d'IA considérés comme humains auront des « conséquences sociales et économiques généralisées ».

Un outil dépassé ?

Le test de Turing, développé par Alan Turing dans les années 1950, est un critère d’évaluation de l’intelligence d’une machine. Pour le réussir, un système doit être capable de mener une conversation avec un humain sans que celui-ci ne puisse distinguer s’il interagit avec une machine ou une autre personne.

Les scientifiques ont fait valoir qu'il existe des critiques valables concernant l'approche trop simpliste de ce test, en affirmant que « les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence ». Cela suggère que nous n'avons pas cherché l'intelligence des machines au bon endroit.

« L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux. Les capacités ne sont qu'une petite partie de la valeur de l'IA - sa capacité à comprendre les valeurs, les préférences et les limites des autres est également essentielle. Ce sont ces qualités qui permettront à l'IA de servir de concierge fidèle et fiable dans nos vies ».

Watson a ajouté que l'étude représentait un défi pour les futures interactions homme-machine et que nous deviendrons de plus en plus paranoïaques quant à la véritable nature des interactions, en particulier dans les domaines sensibles. Elle a ajouté que l'étude mettait en évidence l'évolution de l'IA au cours de l'ère des GPT.

« ELIZA était limité à des réponses toutes faites, ce qui limitait considérablement ses capacités. Il pouvait tromper quelqu'un pendant cinq minutes, mais ses limites devenaient rapidement évidentes », a-t-elle déclaré. « Les modèles de langages sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s'exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C'est un énorme pas en avant par rapport à quelque chose programmé à la main par un être humain, même si c'est avec beaucoup d'intelligence et de soin ».

Les défis de l’intelligence artificielle indiscernable

Bien que la réussite de GPT-4 au test de Turing soit une prouesse technique, elle n’est pas sans soulever des défis importants. Premièrement, l’indiscernabilité entre les interactions humaines et celles générées par l’IA peut conduire à des abus, tels que la désinformation ou l’usurpation d’identité.

De plus, il existe un risque que la dépendance croissante envers les IA dans les prises de décisions importantes puisse mener à une perte de compétences critiques chez les humains. La question de la responsabilité légale en cas d’erreurs commises par l’IA est également préoccupante.

En outre, l’intégration de GPT-4 dans des domaines sensibles comme la santé ou la justice nécessite une transparence et une réglementation accrues pour prévenir les biais et garantir l’équité.

Il est essentiel que la société engage un dialogue ouvert sur ces questions et travaille à établir des normes qui régissent l’utilisation des IA avancées comme GPT-4, afin d’en maximiser les bénéfices tout en minimisant les risques potentiels.


L'IA pourrait-elle être confrontée à un plafond de verre ? Les IA génératives pourraient manquer de données d'entraînement dès 2026

Les progrès récents dans le domaine de la modélisation de langage se sont fortement appuyés sur la formation non supervisée sur de grandes quantités de texte généré par l'homme, provenant principalement du web ou de corpus conservés. Les plus grands ensembles de données textuelles publiques générées par l'homme, tels que RefinedWeb, C4 et RedPajama, contiennent des milliers de milliards de mots collectés à partir de milliards de pages web.

La demande de données textuelles humaines publiques devrait continuer à augmenter. Afin de mettre à l'échelle la taille des modèles et des cycles de formation de manière efficace, les grands modèles de langage (LLM) sont généralement formés selon des lois de mise à l'échelle neuronale. Ces relations impliquent que l'augmentation de la taille des ensembles de données d'entraînement est cruciale pour améliorer efficacement les performances des LLM.

Des chercheurs étudient les contraintes potentielles sur la mise à l'échelle du LLM posées par la disponibilité de données textuelles publiques générées par l'homme. L'étude prévoit la demande croissante de données d'entraînement sur la base des tendances actuelles et estime le stock total de données textuelles humaines publiques.

Les résultats indiquent que si les tendances actuelles de développement du LLM se poursuivent, les modèles seront entraînés sur des ensembles de données d'une taille à peu près égale au stock disponible de données textuelles humaines publiques entre 2026 et 2032, ou légèrement plus tôt si les modèles sont surentraînés.


Projections entre les données générés et les données utilisés

Les chercheurs étudient également comment les progrès en matière de modélisation de langage peuvent se poursuivre lorsque les ensembles de données textuelles générées par l...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !