OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux

Le 11 novembre 2024 à 09:07, par Stéphane le calme

183PARTAGES

Les modèles d'intelligence artificielle d'OpenAI représentent une avancée notable dans le traitement du langage naturel. Utilisés pour générer du texte, répondre à des questions, traduire et même assister à des tâches de créativité, ces modèles montrent des capacités impressionnantes. Cependant, des recherches récentes, s'appuyant sur un benchmark d'OpenAI, indiquent que même ses modèles les plus sophistiqués produisent encore un nombre surprenant d'erreurs, mettant en lumière les limitations persistantes de cette technologie. Une évolution qui devrait nous rappeler qu'il faut traiter les résultats de n'importe quel LLM avec beaucoup de scepticisme et avec la volonté de passer le texte généré au peigne fin.

OpenAI a publié un nouveau benchmark, baptisé « SimpleQA », conçu pour mesurer la précision des résultats de ses propres modèles d'intelligence artificielle et de ceux de la concurrence.

Ce faisant, l'entreprise d'intelligence artificielle a révélé à quel point ses derniers modèles sont incapables de fournir des réponses correctes. Lors de ses propres tests, son modèle de pointe o1-preview, qui a été lancé le mois dernier, a obtenu un taux de réussite catastrophique de 42,7 % sur le nouveau test de référence.

En d'autres termes, même la crème de la crème des grands modèles de langage (LLM) récemment annoncés est bien plus susceptible de fournir une réponse tout à fait incorrecte qu'une réponse correcte.

La concurrence ne se porte pas forcément mieux

Les modèles concurrents, comme celui d'Anthropic, ont obtenu des résultats encore plus faibles au test de référence SimpleQA d'OpenAI, le modèle Claude-3.5-sonnet récemment publié n'ayant répondu correctement qu'à 28,9 % des questions. Toutefois, le modèle était beaucoup plus enclin à révéler sa propre incertitude et à refuser de répondre - ce qui, compte tenu des résultats accablants, est probablement mieux ainsi.

Pire encore, OpenAI a constaté que ses propres modèles d'IA ont tendance à surestimer considérablement leurs propres capacités, une caractéristique qui peut les amener à être très confiants dans les faussetés qu'ils concoctent.

Les LLM souffrent depuis longtemps « d'hallucinations », un terme élégant que les entreprises d'IA ont inventé pour désigner la tendance bien documentée de leurs modèles à produire des réponses qui ne sont rien d'autre que de la foutaise.

Malgré le risque très élevé d'aboutir à des inventions totales, le monde a adopté la technologie à bras ouverts, des étudiants générant des devoirs aux développeurs employés par les géants de la technologie générant d'énormes quantités de code.

Lors de l'annonce des résultats financiers du troisième trimestre 2024, Sundar Pichai, PDG de Google, a dévoilé une information marquante : plus de 25 % du nouveau code produit par Google est désormais généré par l'intelligence artificielle (IA). Pichai a déclaré que l'utilisation de l'IA pour le codage permettait de « stimuler la productivité et l'efficacité » au sein de Google. Une fois le code généré, il est ensuite vérifié et revu par les employés, a-t-il ajouté.

« Cela permet à nos ingénieurs d'en faire plus et d'aller plus vite », a déclaré Pichai. « Je suis enthousiasmé par nos progrès et les opportunités qui s'offrent à nous, et nous continuons à nous concentrer sur la création de produits de qualité. »

L'armée s'est également joint à la danse

L'United States Africa Command (AFRICOM) a reçu l'approbation pour acheter des services de cloud computing directement auprès de Microsoft, via le contrat Joint Warfighting Cloud Capability d'une valeur de 9 milliards de dollars. Ce contrat inclut des outils fournis par OpenAI, tels que le modèle de langage GPT-4 et DALL-E, l'outil de génération d'images.

L'AFRICOM déclare que « la capacité à prendre en charge des charges de travail avancées en matière d'IA/ML est cruciale. Cela inclut des services de recherche, de traitement du langage naturel, [d'apprentissage automatique] et d'analyse unifiée pour le traitement des données ».

« Il est extrêmement alarmant de constater qu'ils sont explicites dans l'utilisation des outils OpenAI pour "l'analyse unifiée du traitement des données" afin de s'aligner sur les objectifs de la mission de l'USAFRICOM », a déclaré Heidy Khlaaf, scientifique en chef de l'IA à l'AI Now Institute, qui a déjà mené des évaluations de sécurité pour OpenAI. « En...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion La concurrence ne se porte pas forcément mieux

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux