Nous interagissons avec l'intelligence artificielle (IA) en ligne non seulement plus que jamais, mais aussi plus que nous ne le pensons. Des chercheurs ont donc demandé à des personnes de converser avec quatre agents, dont un humain et trois types différents de modèles d'IA, pour voir si elles pouvaient faire la différence.
Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.
Les scientifiques ont décidé de reproduire ce test en demandant à 500 personnes de parler avec quatre répondants, dont un humain et le programme d'IA des années 1960 ELIZA, ainsi que GPT-3.5 et GPT-4, l'IA qui alimente ChatGPT. Les conversations duraient cinq minutes, après quoi les participants devaient dire s'ils pensaient parler à un humain ou à une IA. Dans l'étude, publiée le 9 mai sur le serveur arXiv, les scientifiques ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle linguistique (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.
« Les machines peuvent confabuler, rassembler des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l'Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d'IA expriment des faiblesses et des bizarreries semblables à celles de l'homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies ».
L'étude, qui s'appuie sur des décennies de tentatives pour faire passer le test de Turing à des agents d'IA, fait écho aux préoccupations communes selon lesquelles les systèmes d'IA considérés comme humains auront des « conséquences sociales et économiques généralisées ».
Un outil dépassé ?
Le test de Turing, développé par Alan Turing dans les années 1950, est un critère d’évaluation de l’intelligence d’une machine. Pour le réussir, un système doit être capable de mener une conversation avec un humain sans que celui-ci ne puisse distinguer s’il interagit avec une machine ou une autre personne.
Les scientifiques ont fait valoir qu'il existe des critiques valables concernant l'approche trop simpliste de ce test, en affirmant que « les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence ». Cela suggère que nous n'avons pas cherché l'intelligence des machines au bon endroit.
« L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux. Les capacités ne sont qu'une petite partie de la valeur de l'IA - sa capacité à comprendre les valeurs, les préférences et les limites des autres est également essentielle. Ce sont ces qualités qui permettront à l'IA de servir de concierge fidèle et fiable dans nos vies ».
Watson a ajouté que l'étude représentait un défi pour les futures interactions homme-machine et que nous deviendrons de plus en plus paranoïaques quant à la véritable nature des interactions, en particulier dans les domaines sensibles. Elle a ajouté que l'étude mettait en évidence l'évolution de l'IA au cours de l'ère des GPT.
« ELIZA était limité à des réponses toutes faites, ce qui limitait considérablement ses capacités. Il pouvait tromper quelqu'un pendant cinq minutes, mais ses limites devenaient rapidement évidentes », a-t-elle déclaré. « Les modèles de langages sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s'exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C'est un énorme pas en avant par rapport à quelque chose programmé à la main par un être humain, même si c'est avec beaucoup d'intelligence et de soin ».
Les défis de l’intelligence artificielle indiscernable
Bien que la réussite de GPT-4 au test de Turing soit une prouesse technique, elle n’est pas sans soulever des défis importants. Premièrement, l’indiscernabilité entre les interactions humaines et celles générées par l’IA peut conduire à des abus, tels que la désinformation ou l’usurpation d’identité.
De plus, il existe un risque que la dépendance croissante envers les IA dans les prises de décisions importantes puisse mener à une perte de compétences critiques chez les humains. La question de la responsabilité légale en cas d’erreurs commises par l’IA est également préoccupante.
En outre, l’intégration de GPT-4 dans des domaines sensibles comme la santé ou la justice nécessite une transparence et une réglementation accrues pour prévenir les biais et garantir l’équité.
Il est essentiel que la société engage un dialogue ouvert sur ces questions et travaille à établir des normes qui régissent l’utilisation des IA avancées comme GPT-4, afin d’en maximiser les bénéfices tout en minimisant les risques potentiels.
L'IA pourrait-elle être confrontée à un plafond de verre ? Les IA génératives pourraient manquer de données d'entraînement dès 2026
Les progrès récents dans le domaine de la modélisation de langage se sont fortement appuyés sur la formation non supervisée sur de grandes quantités de texte généré par l'homme, provenant principalement du web ou de corpus conservés. Les plus grands ensembles de données textuelles publiques générées par l'homme, tels que RefinedWeb, C4 et RedPajama, contiennent des milliers de milliards de mots collectés à partir de milliards de pages web.
La demande de données textuelles humaines publiques devrait continuer à augmenter. Afin de mettre à l'échelle la taille des modèles et des cycles de formation de manière efficace, les grands modèles de langage (LLM) sont généralement formés selon des lois de mise à l'échelle neuronale. Ces relations impliquent que l'augmentation de la taille des ensembles de données d'entraînement est cruciale pour améliorer efficacement les performances des LLM.
Des chercheurs étudient les contraintes potentielles sur la mise à l'échelle du LLM posées par la disponibilité de données textuelles publiques générées par l'homme. L'étude prévoit la demande croissante de données d'entraînement sur la base des tendances actuelles et estime le stock total de données textuelles humaines publiques.
Les résultats indiquent que si les tendances actuelles de développement du LLM se poursuivent, les modèles seront entraînés sur des ensembles de données d'une taille à peu près égale au stock disponible de données textuelles humaines publiques entre 2026 et 2032, ou légèrement plus tôt si les modèles sont surentraînés.
Projections entre les données générés et les données utilisés
Les chercheurs étudient également comment les progrès en matière de modélisation de langage peuvent se poursuivre lorsque les ensembles de données textuelles générées par l'homme ne peuvent plus être mis à l'échelle. L'étude soutient que la génération de données synthétiques, l'apprentissage par transfert à partir de domaines riches en données et l'amélioration de l'efficacité des données pourraient permettre de réaliser de nouveaux progrès.
L'IA sera-t-elle à court de données ? L'étude explore les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique, en particulier à la lumière de la nature limitée des données textuelles humaines publiques. L'analyse révèle l'approche d'un point critique d'ici la fin de la décennie, où la dépendance actuelle à l'égard des données textuelles humaines publiques pour l'entraînement des modèles d'apprentissage automatique pourrait devenir insoutenable.
Malgré ce goulot d'étranglement imminent, l'apprentissage par transfert et les données autogénérées sont identifiés comme des voies viables et prometteuses qui pourraient permettre la croissance et l'évolution continues des systèmes de ML au-delà des contraintes des données textuelles humaines publiques.
Toutefois, l'étude présente des limites : elle n'explore pas certaines considérations qui pourraient être pertinentes pour comprendre le rôle futur des données. Tout d'abord, le choix des données devrait dépendre des compétences ou des capacités souhaitées pour le modèle. L'identification des compétences économiquement ou scientifiquement utiles et des ensembles de données nécessaires pour les enseigner pourrait révéler des lacunes critiques en matière de données. Deuxièmement, les futures percées en ML, telles que les systèmes capables d'explorer et d'expérimenter le monde réel de manière autonome, pourraient modifier la source d'information dominante pour l'apprentissage.
Les conclusions de l'étude sont donc doubles. D'une part, le paradigme actuel basé sur les données textuelles humaines publiques ne pourra pas perdurer dans une décennie. D'autre part, il est probable que d'autres sources de données seront adoptées avant cette échéance, ce qui permettra aux systèmes de ML de continuer à se développer.
Conclusion
GPT-4 marque un tournant significatif car il semble avoir franchi le seuil du test de Turing. Les implications sont vastes et touchent divers domaines tels que le service clientèle, l’éducation et même la création littéraire. Cependant, cette prouesse soulève également des questions éthiques et des préoccupations concernant la sécurité et la vie privée. Les entreprises envisagent déjà d’intégrer GPT-4 dans leurs opérations pour améliorer l’efficacité et personnaliser les expériences utilisateur. Néanmoins, il est crucial de procéder avec prudence pour garantir que l’utilisation de cette technologie soit éthique et sécurisée.
Source : résultats de l'expérience
Et vous ?
Pensez-vous que la réussite du test de Turing par GPT-4 soit un indicateur fiable de l’intelligence artificielle ?
Quelles mesures devraient être prises pour assurer une utilisation éthique des IA comme GPT-4 dans la société ?
Comment la réussite de GPT-4 au test de Turing pourrait-elle transformer votre secteur d’activité ?
Quels sont les risques potentiels liés à l’indiscernabilité entre les interactions humaines et celles générées par l’IA ?
En quoi la réussite de GPT-4 au test de Turing influence-t-elle votre perception de la conscience et de l’intelligence ?