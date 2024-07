Qu'est-ce qu'un LLM ?

Ce qu'il faut faire

ChatGPT est apparu au grand jour il y a un an et quelques mois. Depuis lors, on observe une tendance croissante dans de nombreux secteurs à essayer de l'utiliser pour remplacer certaines choses que les gens font, ou pour fournir un nouveau moyen d'aider les gens à trouver des réponses à leurs questions.Le monde des navigateurs web n'a pas été épargné par cette tendance, avec de nombreux exemples de navigateurs web intégrant la fonctionnalité LLM (Large Language Model) d'une manière ou d'une autre.Pourtant, même s'ils le font au nom de la construction de l'avenir, aucun d'entre eux ne semble prendre en compte le défaut flagrant de ces fonctionnalités : les LLM eux-mêmes ne sont tout simplement pas adaptés comme interlocuteurs, comme moteurs de résumé, et ne peuvent aider à générer un langage qu'avec un risque significatif de plagiat.Pour comprendre pourquoi il s'agit là de problèmes fondamentaux, et non de problèmes qui finiront par être résolus, la nature même des LLM doit être examinée.Se lancer dans une explication très longue des subtilités des LLM n'est pas le but recherché. On se contentera plutôt d'offrir une explication courte. Il se peut que certaines mises en garde soient omises, mais tout ce qui est dit ici s'applique aux LLM génériques les plus populaires. D'ailleurs, de nombreux experts dans ce domaine ont déjà fait un excellent travail à ce sujet.Les LLM sont simplement un modèle de ce à quoi ressemble un langage écrit. Il s'agit d'une description mathématique de ce à quoi cela ressemble. Il est construit à partir de l'examen d'une grande variété de sources et se concentre sur la description du mot qui a le plus de chances de suivre un grand nombre d'autres mots. Une part d'aléatoire est ajoutée au système pour le rendre plus intéressant, puis le résultat est filtré par un second modèle qui détermine à quel point ce résultat est "agréable". Dans plusieurs cas, ce second modèle a été élaboré en demandant à de nombreuses personnes (sous-payées) d'examiner les résultats de la première étape et de décider s'ils les apprécient ou non et s'ils semblent plausibles.Cela pose deux problèmes fondamentaux :Pour avoir une bonne idée du mot qui est susceptible de suivre une série de mots, il est nécessaire d'examiner un grand nombre de textes. Plus il y a de texte, mieux c'est, car chaque morceau de texte permet d'affiner le modèle afin d'obtenir une représentation plus précise d'une langue. En outre, une grande partie du texte utilisé doit être relativement récente pour refléter l'usage actuel de la langue.Cela signifie qu'il y a une énorme incitation à consommer du texte à partir de toutes les sources récentes disponibles, des médias sociaux aux articles et aux livres. Malheureusement, ce texte étant intégré au modèle, il est possible de l'amener à produire le même texte mot pour mot. Cela se produit si, pour une séquence d'entrée donnée, il n'y a pas de meilleur choix que de régurgiter ce texte original. Par conséquent, ces modèles ne feront dans certains cas que répéter du matériel protégé par le droit d'auteur, ce qui conduit au plagiat.De même, la masse de texte provenant des médias sociaux et d'autres sources fournies par les utilisateurs peut très bien contenir des informations sensibles et privées qui peuvent être régurgitées de la même manière. Certaines personnes astucieuses ont trouvé des moyens de déclencher ce type de comportement, et il est peu probable qu'il soit possible de s'en protéger totalement. Conscient du risque que représente l'exposition d'informations privées, Vivaldi n'a jamais été enthousiasmé par l'idée que ces informations puissent être intégrées dans ces modèles.Étant donné que le texte d'un LLM provient en grande partie de l'internet en général, cela signifie qu'une grande partie de ce texte est complètement bidon. Cela va de la simple prose mal écrite à l'erreur factuelle, en passant par le contenu offensant. Les premières expériences menées avec cette technologie ont abouti à la création de chatbots qui se sont rapidement mis à cracher eux-mêmes des propos offensants, prouvant ainsi qu'ils n'étaient pas adaptés à l'objectif visé. C'est pourquoi les LLM modernes sont modérés par une deuxième étape de filtrage de leur résultat.Malheureusement, comme cela a été mentionné plus haut, cette deuxième étape est construite par des personnes qui évaluent les résultats de la première étape. Pour que cela soit utile, ils doivent examiner d'énormes quantités de résultats. Même les personnes les mieux informées au monde ne peuvent espérer vérifier l'exactitude de tous les résultats et même si elles le pouvaient, elles ne peuvent pas connaître tous les résultats qui seront jamais produits. Pour ces personnes, le filtre ne fait qu'aider à donner le ton. Tout cela conduit à favoriser le type de résultat que les gens aiment voir, c'est-à-dire un texte qui a l'air sûr de lui, quelle que soit sa précision. Ils auront raison la plupart du temps sur des faits largement connus, mais pour le reste, c'est un pari. Le plus souvent, ils se contenteront de proférer des mensonges dignes d'un politicien.Comme indiqué précédemment, les LLM sont essentiellement des machines à mentir qui ont l'air sûres d'elles et qui ont tendance à divulguer occasionnellement des données privées ou à plagier des travaux existants. Ce faisant, ils consomment également de grandes quantités d'énergie et sont heureux d'utiliser tous les GPU que vous pouvez leur lancer, un problème qui s'est déjà posé dans le domaine des crypto-monnaies.En tant que tel, il n'est pas judicieux d'intégrer une telle solution dans Vivaldi. Il y a suffisamment d'informations erronées qui circulent pour risquer d'en rajouter. Vivaldi n'utilisera pas de LLM pour ajouter un chatbot, une solution pour les résumés ou un moteur de suggestions pour remplir des formulaires à votre place jusqu'à ce que des moyens plus rigoureux de faire ces choses soient disponibles.Mais Vivaldi, c'est aussi la possibilité de choisir et il continuera à permettre aux gens d'utiliser tous les LLM qu'ils souhaitent en ligne.Malgré tout, Vivaldi estime que le domaine de l'apprentissage automatique en général reste passionnant et qu'il peut déboucher sur des fonctionnalités réellement utiles. À l'avenir, Vivaldi espère que cela lui permettra d'offrir à ses utilisateurs des fonctionnalités respectueuses de la vie privée, en mettant l'accent sur l'amélioration de la découvrabilité et de l'accessibilité.Vivaldi continuera à faire des efforts pour offrir une expérience de navigation éthique et riche en fonctionnalités.Quel est votre avis sur le sujet ?Trouvez-vous la décision de Vivaldi crédible ou pertinente ?