IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion
La concurrence ne se porte pas forcément mieux

Le , par Stéphane le calme

24PARTAGES

5  0 
Les modèles d'intelligence artificielle d'OpenAI représentent une avancée notable dans le traitement du langage naturel. Utilisés pour générer du texte, répondre à des questions, traduire et même assister à des tâches de créativité, ces modèles montrent des capacités impressionnantes. Cependant, des recherches récentes, s'appuyant sur un benchmark d'OpenAI, indiquent que même ses modèles les plus sophistiqués produisent encore un nombre surprenant d'erreurs, mettant en lumière les limitations persistantes de cette technologie. Une évolution qui devrait nous rappeler qu'il faut traiter les résultats de n'importe quel LLM avec beaucoup de scepticisme et avec la volonté de passer le texte généré au peigne fin.

OpenAI a publié un nouveau benchmark, baptisé « SimpleQA », conçu pour mesurer la précision des résultats de ses propres modèles d'intelligence artificielle et de ceux de la concurrence.

Ce faisant, l'entreprise d'intelligence artificielle a révélé à quel point ses derniers modèles sont incapables de fournir des réponses correctes. Lors de ses propres tests, son modèle de pointe o1-preview, qui a été lancé le mois dernier, a obtenu un taux de réussite catastrophique de 42,7 % sur le nouveau test de référence.

En d'autres termes, même la crème de la crème des grands modèles de langage (LLM) récemment annoncés est bien plus susceptible de fournir une réponse tout à fait incorrecte qu'une réponse correcte.


La concurrence ne se porte pas forcément mieux

Les modèles concurrents, comme celui d'Anthropic, ont obtenu des résultats encore plus faibles au test de référence SimpleQA d'OpenAI, le modèle Claude-3.5-sonnet récemment publié n'ayant répondu correctement qu'à 28,9 % des questions. Toutefois, le modèle était beaucoup plus enclin à révéler sa propre incertitude et à refuser de répondre - ce qui, compte tenu des résultats accablants, est probablement mieux ainsi.

Pire encore, OpenAI a constaté que ses propres modèles d'IA ont tendance à surestimer considérablement leurs propres capacités, une caractéristique qui peut les amener à être très confiants dans les faussetés qu'ils concoctent.

Les LLM souffrent depuis longtemps « d'hallucinations », un terme élégant que les entreprises d'IA ont inventé pour désigner la tendance bien documentée de leurs modèles à produire des réponses qui ne sont rien d'autre que de la foutaise.

Malgré le risque très élevé d'aboutir à des inventions totales, le monde a adopté la technologie à bras ouverts, des étudiants générant des devoirs aux développeurs employés par les géants de la technologie générant d'énormes quantités de code.

Lors de l'annonce des résultats financiers du troisième trimestre 2024, Sundar Pichai, PDG de Google, a dévoilé une information marquante : plus de 25 % du nouveau code produit par Google est désormais généré par l'intelligence artificielle (IA). Pichai a déclaré que l'utilisation de l'IA pour le codage permettait de « stimuler la productivité et l'efficacité » au sein de Google. Une fois le code généré, il est ensuite vérifié et revu par les employés, a-t-il ajouté.

« Cela permet à nos ingénieurs d'en faire plus et d'aller plus vite », a déclaré Pichai. « Je suis enthousiasmé par nos progrès et les opportunités qui s'offrent à nous, et nous continuons à nous concentrer sur la création de produits de qualité. »

L'armée s'est également joint à la danse

L'United States Africa Command (AFRICOM) a reçu l'approbation pour acheter des services de cloud computing directement auprès de Microsoft, via le contrat Joint Warfighting Cloud Capability d'une valeur de 9 milliards de dollars. Ce contrat inclut des outils fournis par OpenAI, tels que le modèle de langage GPT-4 et DALL-E, l'outil de génération d'images.

L'AFRICOM déclare que « la capacité à prendre en charge des charges de travail avancées en matière d'IA/ML est cruciale. Cela inclut des services de recherche, de traitement du langage naturel, [d'apprentissage automatique] et d'analyse unifiée pour le traitement des données ».

« Il est extrêmement alarmant de constater qu'ils sont explicites dans l'utilisation des outils OpenAI pour "l'analyse unifiée du traitement des données" afin de s'aligner sur les objectifs de la mission de l'USAFRICOM », a déclaré Heidy Khlaaf, scientifique en chef de l'IA à l'AI Now Institute, qui a déjà mené des évaluations de sécurité pour OpenAI. « En particulier en affirmant qu'ils pensent que ces outils améliorent l'efficacité, la précision et l'évolutivité, alors qu'il a été démontré que ces outils sont très imprécis et qu'ils fabriquent constamment des résultats. Ces affirmations témoignent d'une méconnaissance préoccupante, de la part de ceux qui achètent ces technologies, des risques élevés que ces outils posent dans les environnements critiques. »

Anthropic a annoncé jeudi qu' elle s'associait à la société d'analyse de données Palantir et à Amazon Web Services (AWS) pour permettre aux agences de renseignement et de défense américaines d'accéder à la famille de modèles d'IA Claude d'Anthropic.

Cette nouvelle intervient alors qu'un nombre croissant de fournisseurs d'IA cherchent à conclure des accords avec des clients de la défense américaine pour des raisons stratégiques et fiscales. Meta a récemment révélé qu'elle mettait ses modèles Llama à la disposition de ses partenaires de la défense, tandis qu'OpenAI cherche à établir une relation plus étroite avec le ministère américain de la défense.

Kate Earle Jensen, responsable des ventes chez Anthropic, a déclaré que la collaboration de l'entreprise avec Palantir et AWS permettra d'« opérationnaliser l'utilisation de Claude » au sein de la plateforme de Palantir en tirant parti de l'hébergement AWS. Claude est devenu disponible sur la plateforme de Palantir au début du mois et peut maintenant être utilisé dans l'environnement accrédité de Palantir pour la défense, Palantir Impact Level 6 (IL6).


Des fissures commencent à apparaître

Imaginez ce scénario: dans un hôpital moderne, un outil d'IA, conçu pour améliorer le diagnostic et le traitement des patients, commence à inventer des informations que ni les médecins ni les patients n'ont jamais fournies. Ce n'est pas de la science-fiction, mais une inquiétante réalité mise en lumière par des chercheurs récents.

OpenAI a vanté son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une robustesse et une précision proches du « niveau humain ».

Mais Whisper présente un défaut majeur : il a tendance à inventer des morceaux de texte, voire des phrases entières, selon des entretiens menés avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés (connus dans l'industrie sous le nom d'hallucinations) peuvent inclure des commentaires raciaux, une rhétorique violente et même des traitements médicaux imaginaires.

Selon les experts, ces fabrications posent problème car Whisper est utilisé dans une multitude d'industries à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est encore plus inquiétant, selon eux, c'est que les centres médicaux se précipitent pour utiliser des outils basés sur Whisper afin de transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans des « domaines à haut risque ».

Les policiers américains commencent eux aussi à adopter l'IA, une évolution terrifiante qui pourrait conduire les forces de l'ordre à accuser à tort des innocents ou à favoriser des préjugés troublants.


Les erreurs fréquentes de ces modèles soulèvent plusieurs critiques importantes

Premièrement, l'IA semble avoir des difficultés à traiter les nuances complexes ou à raisonner au-delà de ce qui est explicite dans les données sur lesquelles elle a été entraînée. En conséquence, elle peut échouer dans des situations nécessitant de l'analyse contextuelle ou une compréhension fine des implications des informations.

D'autre part, OpenAI est conscient de ces lacunes et met en place des méthodes pour évaluer et réduire ces erreurs. La société mène des recherches actives pour améliorer la précision et la fiabilité des modèles, notamment en utilisant des techniques de "red team" (test de robustesse par des équipes dédiées à trouver les failles du modèle) et des systèmes de rétroaction humaine pour affiner les réponses de l'IA. Ces efforts visent à minimiser les "hallucinations" et à accroître la précision des réponses, mais les résultats montrent que le problème reste difficile à éliminer complètement.

Les dernières découvertes sur OpenAI sont un nouveau signe inquiétant de l'incapacité des LLM actuels à dire la vérité de manière fiable.

Les progrès réalisés par OpenAI témoignent d'un potentiel immense, mais la fréquence des erreurs pose des questions quant aux usages de ces technologies. Des améliorations substantielles devront être apportées pour que l'IA devienne véritablement fiable dans des contextes critiques. Dans l'état actuel des choses, une vigilance accrue et un encadrement réglementaire sont nécessaires pour encadrer l'utilisation de ces outils, surtout dans des domaines où une erreur pourrait avoir des répercussions majeures.

En fin de compte, bien que les modèles d'OpenAI ouvrent des perspectives fascinantes, leur imperfection invite à la prudence. Tant que la technologie ne pourra pas garantir une précision impeccable, il sera essentiel de limiter les attentes et de renforcer la supervision humaine pour éviter les dérives et assurer une utilisation sûre et éthique de l'intelligence artificielle.

La question de savoir s'il s'agit d'un problème qui peut être résolu avec des ensembles d'entraînement encore plus grands - ce que les leaders de l'IA s'empressent d'assurer aux investisseurs - reste ouverte.

Sources : résultats de l'étude d'OpenAI, SimpleQA

Et vous ?

Si une IA donne une mauvaise réponse ayant des conséquences graves, qui devrait être tenu pour responsable ? Les entreprises devraient-elles offrir des garanties ou des assurances sur la fiabilité de leurs modèles d’IA ?
Devrait-on responsabiliser davantage les utilisateurs pour qu’ils vérifient les informations obtenues auprès d'une IA ? Quels outils ou méthodes pourraient aider les utilisateurs à identifier plus facilement les erreurs d’une IA ?
Les utilisateurs risquent-ils de devenir trop confiants face aux réponses de l’IA ? Comment l’IA pourrait-elle influencer la perception de l'exactitude ou de la fiabilité des informations ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Aiekick
Membre extrêmement actif https://www.developpez.com
Le 11/11/2024 à 18:11
c'était previsible. l'ia trouve de moins en moins de contenu créé par des humains pour entrainement. c'est comme faire une copie d'une copie. on accumule l'erreur, on perd en qualité.

c'est pour ca que l'IA est une bulle qui peut eclater a moins que l'on trouve une nouvelle voie tehcnologique.
3  0 
Avatar de _toma_
Membre confirmé https://www.developpez.com
Le 12/11/2024 à 11:21
Pour la supervision humaine afin d'éviter les dérives et assurer une utilisation sûre et éthique ... c't'une blague, non ?
J'utilise absolument aucun produit de génération de contenu. Hier j'ai voulu voir où on en était de la facilité d'accès pour les truc malsains. J'ai pris sur le net une image d'une femme au hasard que j'ai sauvegardé. J'ai tapé "nude generator" dans duckduckgo. Le premier lien dans les résultats (c'est le seul que j'ai testé) m'a permis en 30 secondes d'avoir la même photo avec la femme complètement nue (même pas besoin de créer un compte sur le site).
L'éthique c'est à la fois le fournisseur de service et l'utilisateur final qui doivent l'avoir donc je vois pas quoi dire à part : c'est déjà foutu.
3  0 
Avatar de Fluxgraveon
Membre habitué https://www.developpez.com
Le 12/11/2024 à 9:13
En fin de compte, bien que les modèles d'OpenAI ouvrent des perspectives fascinantes, leur imperfection invite à la prudence. Tant que la technologie ne pourra pas garantir une précision impeccable, il sera essentiel de limiter les attentes et de renforcer la supervision humaine pour éviter les dérives et assurer une utilisation sûre et éthique de l'intelligence artificielle.
Pour la supervision humaine afin d'éviter les dérives et assurer une utilisation sûre et éthique ... c't'une blague, non ?
Pour la précision impeccable de la technologie, cela ressemble à la résolution du principe d'incertitude de Heisenberg ... même si vous suivez les travaux de Roy Jay Glauber (l'information quantique n'est pas entachée par le théorème de Heisenberg), vous perdrez la qualité prédictive et cela s'effondrera de la même façon (qu'avec le traitement LLM).
2  0 
Avatar de _toma_
Membre confirmé https://www.developpez.com
Le 13/11/2024 à 2:21
Bah oui
Intelligence artificielle
Générateur de contenu
2  0 
Avatar de d_d_v
Membre éprouvé https://www.developpez.com
Le 12/11/2024 à 15:28
Citation Envoyé par Aiekick Voir le message
c'était previsible. l'ia trouve de moins en moins de contenu créé par des humains pour entrainement. c'est comme faire une copie d'une copie. on accumule l'erreur, on perd en qualité.

c'est pour ca que l'IA est une bulle qui peut eclater a moins que l'on trouve une nouvelle voie tehcnologique.
Je pense que ça n'a aucun rapport. C'est juste que ce qu'on appelle injustement l'IA n'est pas conçu pour donner des réponses précises, puisque ces moteurs se basent en grande partie sur des systèmes probabilistes. Donc, c'est bien pour donner des réponses "probables", de faire de "l'à peu près"
Très bien en fait pour lancer le premier jet d'un projet (quelque soit le domaine), ou pour donner des suggestions sur tel ou tel problème, par pour résoudre le problème ou faire un projet de A à Z.
1  0 
Avatar de vVDB.fr
Membre régulier https://www.developpez.com
Le 13/11/2024 à 7:10
Les responsables sont les entreprises, en premier Sam Altman qui raconte que c'est le top en permanence que l'IA générale est pour 2025. C'est lui le fou.
Lorsque vous n'avez pas de données suffisantes sur un domaine les résultats sont bidons, la probabilité est nulle d'avoir une réponse cohérente... Le vieux 'garbage in, garbage out'.
Le discours d'Altman n'est lÃ* que pour récolter des milliards pour lui. L'humanité il s'en fout. Quand on a un produit qui fait 40% d'erreurs on a la descendance de le retirer du marché, on ne fait pas la promotion d'un mauvais prototype.
Allez utiliser un tableur qui donne des résultats correct une fois sur deux... Vous n'en voulez pas pourtant c'est super génial ! Hein !
Il faut connaître le périmètre d'entraînement du modèle avec un volume de données important et solliciter le modèle exclusivement dans le périmètre defini afin d'obtenir une réponse probabiliste correcte.

l'IA 'généraliste' est une hallucination d'apprentis milliardaires, la dérive ultime du système des startups.
2  1 
Avatar de Fluxgraveon
Membre habitué https://www.developpez.com
Le 13/11/2024 à 11:57
Bah oui
Intelligence artificielle
Générateur de contenu
Certes ...
https://techxplore.com/news/2024-11-...den-links.html
0  2