IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Meta espère augmenter la précision de Wikipedia et ses 6,5 millions d'articles avec un nouveau modèle d'IA,
Capable de vérifier automatiquement des centaines de milliers de citations à la fois

Le , par Stéphane le calme

190PARTAGES

17  0 
Wikipedia contient environ 6,5 millions d’articles de contributeurs bénévoles. Cependant, bien que les sources des articles soient citées, comment savoir si ceux-ci sont fiables ? C'est à cette question que Meta veut répondre avec SPHERE, un modèle open source capable d’analyser automatiquement des centaines de milliers de citations à la fois pour vérifier si elles soutiennent réellement les affirmations correspondantes, elle l’a publié récemment sur la plateforme Github.

Meta a précisé qu’il n’était pas partenaire avec Wikimedia, la fondation qui gère Wikipedia, pour ce projet. Son objectif est de créer une plateforme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou le contenu de l’article correspondant.


L'équipe de recherche et d'avancement de Meta AI a récemment développé un système basé sur un réseau neuronal, appelé SIDE, qui est capable de scanner des centaines de milliers de citations Wikipédia à la fois et de vérifier si elles prennent réellement en charge le contenu correspondant.

Wikipédia est une encyclopédie en ligne gratuite multilingue écrite et maintenue par des bénévoles grâce à une collaboration ouverte et un système d'édition basé sur wiki. Wikipédia compte quelque 6,5 millions d'articles. Wikipédia est en crowdsourcing, il exige donc généralement que les faits soient corroborés ; les citations, les déclarations controversées et les documents controversés sur les personnes vivantes doivent inclure une citation. Les bénévoles revérifient les notes de bas de page de Wikipédia, mais, à mesure que le site continue de croître, il est difficile de suivre le rythme des plus de 17 000 nouveaux articles ajoutés chaque mois. Les lecteurs s'interrogent souvent sur l'exactitude des entrées de Wikipédia qu'ils lisent. Les éditeurs humains ont besoin de l'aide de la technologie pour identifier le charabia ou les déclarations qui manquent de citations, mais comprennent que déterminer si une source confirme ou non une affirmation est une tâche complexe pour l'IA, car elle nécessite une compréhension approfondie pour effectuer une analyse précise.

À cette fin, l'équipe de recherche Meta AI a créé un nouvel ensemble de données de 134 millions de pages Web publiques (divisées en 906 millions de passages de 100 jetons chacun), un ordre de grandeur de plus de données que les sources de connaissances prises en compte dans la recherche actuelle en PNL et beaucoup plus complexe que jamais utilisé pour ce genre de recherches. Le deuxième plus grand ensemble de données en matière de passages/documents est le générateur Internet Augmented Dialog, qui extrait les données de 250 millions de passages et de 109 millions de documents.

L'équipe de recherche et d'avancement de Meta AI a récemment développé un système basé sur un réseau neuronal, appelé SIDE, qui est capable de scanner des centaines de milliers de citations Wikipédia à la fois et de vérifier si elles prennent réellement en charge le contenu correspondant.

Wikipédia est une encyclopédie en ligne gratuite multilingue écrite et maintenue par des bénévoles grâce à une collaboration ouverte et un système d'édition basé sur wiki. Wikipédia compte quelque 6,5 millions d'articles. Wikipédia est un crowdsourcing, il exige donc généralement que les faits soient corroborés ; les citations, les déclarations controversées et les documents controversés sur les personnes vivantes doivent inclure une citation. Les bénévoles revérifient les notes de bas de page de Wikipédia, mais, à mesure que le site continue de croître, il est difficile de suivre le rythme des plus de 17 000 nouveaux articles ajoutés chaque mois. Les lecteurs s'interrogent souvent sur l'exactitude des entrées de Wikipédia qu'ils lisent. Les éditeurs humains ont besoin de l'aide de la technologie pour identifier le charabia ou les déclarations qui manquent de citations, mais comprennent que déterminer si une source confirme ou non une affirmation est une tâche complexe pour l'IA, car elle nécessite une compréhension approfondie pour effectuer une analyse précise.

À cette fin, l'équipe de recherche Meta AI a créé un nouvel ensemble de données de 134 millions de pages Web publiques (divisées en 906 millions de passages de 100 jetons chacun), un ordre de grandeur de plus de données que les sources de connaissances prises en compte dans la recherche actuelle en PNL et beaucoup plus complexe que jamais utilisé pour ce genre de recherches. Le deuxième plus grand ensemble de données en termes de passages/documents est le générateur Internet Augmented Dialog, qui extrait les données de 250 millions de passages et de 109 millions de documents.

Ce nouvel ensemble de données est la source de connaissances du modèle de réseau de neurones qui trouve les citations qui semblent non pertinentes et suggère un événement source plus applicable, pointant vers le passage spécifique qui soutient l'affirmation. Les techniques de compréhension du langage naturel (NLU) sont utilisées pour effectuer les tâches qui permettent au système d'évaluer une citation. Dans NLU, un modèle traduit des phrases humaines (ou des mots, des phrases ou des paragraphes) en représentations mathématiques complexes. L'outil est conçu pour comparer ces représentations afin de déterminer si une affirmation soutient ou contredit une autre.

Le nouvel ensemble de données est également l'un des principaux composants du système*: Sphere, qui est une bibliothèque de récupération à l'échelle du Web et est déjà open source....
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de totozor
Expert confirmé https://www.developpez.com
Le 29/08/2022 à 7:29
Citation Envoyé par Stéphane le calme Voir le message
Meta espère augmenter la précision de Wikipedia
Pourquoi?
En quoi ça les regarde?
6  0 
Avatar de Leruas
Membre éclairé https://www.developpez.com
Le 28/08/2022 à 21:18
ça ne va pas être vu d'un bon oeil qu'un GAFAM bidouille Wikipedia
5  0 
Avatar de
https://www.developpez.com
Le 29/08/2022 à 8:14
Bonjour,

Meta espère augmenter la précision de Wikipedia et ses 6,5 millions d'articles avec un nouveau modèle d'IA, capable de vérifier automatiquement des centaines de milliers de citations à la fois

Que pensez-vous de ce type de projet ?
Ce qui est génant c'est quand dans le modèle d'analyse , les articles pointes sur le site lui même. Une page A a besoin d'une page B , sur Wikipedia . Si c'est une page externe, une image, une video, un son, un graphe , un pdf , un chiffre ... comment l'outil va pouvoir analyser ?

L'analyse de base est textuelle.

Quid aussi , du politiquement correct ? Le robot de contrôle serait tenté de neutraliser des éléments qui vont à l'encontre de sa société par exemple. Censure, blocage, "vérité officielle / officieuse" ...
1  0 
Avatar de DevTroglodyte
Membre extrêmement actif https://www.developpez.com
Le 29/08/2022 à 8:40
Citation Envoyé par totozor Voir le message
Pourquoi?
En quoi ça les regarde?
Ben, en rien, mais il faut qu'ils fassent parler d'eux (et faire oublier les tweets de leur patron sur leur metaverse à la noix )
1  0 
Avatar de Fleur en plastique
Membre extrêmement actif https://www.developpez.com
Le 31/08/2022 à 12:01
Donc si j'ai bien compris, Facebook veut restituer la Vérité sur Wikipédia. Et sur quoi Facebook détient la Vérité ? Sur ces algorithmes qui déterminent quelle Vérité doit être affichée sur les murs de Facebook ? On est mal barrés.
0  0