OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux

Le 11 novembre 2024 à 09:07, par Stéphane le calme

121PARTAGES

Les modèles d'intelligence artificielle d'OpenAI représentent une avancée notable dans le traitement du langage naturel. Utilisés pour générer du texte, répondre à des questions, traduire et même assister à des tâches de créativité, ces modèles montrent des capacités impressionnantes. Cependant, des recherches récentes, s'appuyant sur un benchmark d'OpenAI, indiquent que même ses modèles les plus sophistiqués produisent encore un nombre surprenant d'erreurs, mettant en lumière les limitations persistantes de cette technologie. Une évolution qui devrait nous rappeler qu'il faut traiter les résultats de n'importe quel LLM avec beaucoup de scepticisme et avec la volonté de passer le texte généré au peigne fin.

OpenAI a publié un nouveau benchmark, baptisé « SimpleQA », conçu pour mesurer la précision des résultats de ses propres modèles d'intelligence artificielle et de ceux de la concurrence.

Ce faisant, l'entreprise d'intelligence artificielle a révélé à quel point ses derniers modèles sont incapables de fournir des réponses correctes. Lors de ses propres tests, son modèle de pointe o1-preview, qui a été lancé le mois dernier, a obtenu un taux de réussite catastrophique de 42,7 % sur le nouveau test de référence.

En d'autres termes, même la crème de la crème des grands modèles de langage (LLM) récemment annoncés est bien plus susceptible de fournir une réponse tout à fait incorrecte qu'une réponse correcte.

La concurrence ne se porte pas forcément mieux

Les modèles concurrents, comme celui d'Anthropic, ont obtenu des résultats encore plus faibles au test de référence SimpleQA d'OpenAI, le modèle Claude-3.5-sonnet récemment publié n'ayant répondu correctement qu'à 28,9 % des questions. Toutefois, le modèle était beaucoup plus enclin à révéler sa propre incertitude et à refuser de répondre - ce qui, compte tenu des résultats accablants, est probablement mieux ainsi.

Pire encore, OpenAI a constaté que ses propres modèles d'IA ont tendance à surestimer considérablement leurs propres capacités, une caractéristique qui peut les amener à être très confiants dans les faussetés qu'ils concoctent.

Les LLM souffrent depuis longtemps « d'hallucinations », un terme élégant que les entreprises d'IA ont inventé pour désigner la tendance bien documentée de leurs modèles à produire des réponses qui ne sont rien d'autre que de la foutaise.

Malgré le risque très élevé d'aboutir à des inventions totales, le monde a adopté la technologie à bras ouverts, des étudiants générant des devoirs aux développeurs employés par les géants de la technologie générant d'énormes quantités de code.

Lors de l'annonce des résultats financiers du troisième trimestre 2024, Sundar Pichai, PDG de Google, a dévoilé une information marquante : plus de 25 % du nouveau code produit par Google est désormais généré par l'intelligence artificielle (IA). Pichai a déclaré que l'utilisation de l'IA pour le codage permettait de « stimuler la productivité et l'efficacité » au sein de Google. Une fois le code généré, il est ensuite vérifié et revu par les employés, a-t-il ajouté.

« Cela permet à nos ingénieurs d'en faire plus et d'aller plus vite », a déclaré Pichai. « Je suis enthousiasmé par nos progrès et les opportunités qui s'offrent à nous, et nous continuons à nous concentrer sur la création de produits de qualité. »

L'armée s'est également joint à la danse

L'United States Africa Command (AFRICOM) a reçu l'approbation pour acheter des services de cloud computing directement auprès de Microsoft, via le contrat Joint Warfighting Cloud Capability d'une valeur de 9 milliards de dollars. Ce contrat inclut des outils fournis par OpenAI, tels que le modèle de langage GPT-4 et DALL-E, l'outil de génération d'images.

L'AFRICOM déclare que « la capacité à prendre en charge des charges de travail avancées en matière d'IA/ML est cruciale. Cela inclut des services de recherche, de traitement du langage naturel, [d'apprentissage automatique] et d'analyse unifiée pour le traitement des données ».

« Il est extrêmement alarmant de constater qu'ils sont explicites dans l'utilisation des outils OpenAI pour "l'analyse unifiée du traitement des données" afin de s'aligner sur les objectifs de la mission de l'USAFRICOM », a déclaré Heidy Khlaaf, scientifique en chef de l'IA à l'AI Now Institute, qui a déjà mené des évaluations de sécurité pour OpenAI. « En particulier en affirmant qu'ils pensent que ces outils améliorent l'efficacité, la précision et l'évolutivité, alors qu'il a été démontré que ces outils sont très imprécis et qu'ils fabriquent constamment des résultats. Ces affirmations témoignent d'une méconnaissance préoccupante, de la part de ceux qui achètent ces technologies, des risques élevés que ces outils posent dans les environnements critiques. »

Anthropic a annoncé jeudi qu' elle s'associait à la société d'analyse de données Palantir et à Amazon Web Services (AWS) pour permettre aux agences de renseignement et de défense américaines d'accéder à la famille de modèles d'IA Claude d'Anthropic.

Cette nouvelle intervient alors qu'un nombre croissant de fournisseurs d'IA cherchent à conclure des accords avec des clients de la défense américaine pour des raisons stratégiques et fiscales. Meta a récemment révélé qu'elle mettait ses modèles Llama à la disposition de ses partenaires de la défense, tandis qu'OpenAI cherche à établir une relation plus étroite avec le ministère américain de la défense.

Kate Earle Jensen, responsable des ventes chez Anthropic, a déclaré que la collaboration de l'entreprise avec Palantir et AWS permettra d'« opérationnaliser l'utilisation de Claude » au sein de la plateforme de Palantir en tirant parti de l'hébergement AWS. Claude est devenu disponible sur la plateforme de Palantir au début du mois et peut maintenant être utilisé dans l'environnement accrédité de Palantir pour la défense, Palantir Impact Level 6 (IL6).

Des fissures commencent à apparaître

Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.

OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».

Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.

Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».

Les policiers américains commencent eux aussi à...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion La concurrence ne se porte pas forcément mieux

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion

La concurrence ne se porte pas forcément mieux