Un nouveau rapport du Washington Post met en lumière un outil avancé que les éditeurs peuvent utiliser pour déterminer si leur site web ou leur contenu a été utilisé pour mieux former les systèmes d'intelligence artificielle. En clair, il s'agit de vérifier si vous faites partie ou non de l'ensemble de données C4 de Google. La question est maintenant de savoir si cela vous intéresse ou non et, si ce n'est pas le cas, pourquoi vous devriez le faire ?
Le nouvel ensemble de données comprend une série de sites web différents et une liste de créateurs de contenu que l'IA générative a le potentiel d'affecter négativement ou d'anéantir. Il s'agit aussi bien d'actualités que d'éditeurs dans le monde des médias, du marketing et de certains blogs.
Cette nouvelle offre figure dans le dernier rapport du média, intitulé "Inside Secret List of Webpages that Make AI Sound Smart" (Liste secrète des pages Web qui font passer l'IA pour intelligente). Cette liste est basée sur le nombre de tokens reçus pour chaque page de l'ensemble des données. Pour ceux qui se demandent ce que sont exactement les tokens, il s'agit du nom donné à de minuscules morceaux de texte qui traitent des informations désorganisées et dispersées. Il s'agit parfois d'un mot ou même d'une phrase.
L'exemple parfait est l'utilisation de Search Engine Land. Mais ce n'est qu'un début, car d'autres recherches ont montré que Marketing Land Events figurait également sur la liste, de même que la société mère de Search Engine Land, Third Door Media.
Certaines données ont été utilisées par bribes, d'autres ont été extraites de Reddit et de Wikipédia, entre autres. Pendant que nous parlons, nous aimerions souligner quelque chose à propos de Reddit.
L'entreprise souhaite être compensée financièrement afin de pouvoir bénéficier de l'utilisation des données par différentes entreprises pour l'entraînement de modèles d'IA, comme l'a confirmé un récent rapport du New York Times. Jusqu'à présent, nous avons vu Reddit mettre à jour les conditions de son API et faire payer quelques entreprises comme Google et OpenAI pour un accès privilégié. C'est ce qu'ont indiqué le PDG de Reddit et son cofondateur.
La nouvelle n'est pas très surprenante, car cela semble être le droit de Reddit. L'entreprise dispose d'un grand nombre de données qu'elle considère comme précieuses.
Il n'est donc pas logique qu'il offre gratuitement ses propres données aux grandes marques et aux entreprises. Elle a manifestement un problème avec les entreprises qui s'efforcent de générer leurs propres valeurs et qui n'accordent pas de crédit à l'entreprise auprès des utilisateurs. Et c'est certainement le moment où elle pense qu'elle peut vraiment resserrer beaucoup de choses, et c'est l'une d'entre elles.
Source : Washington Post
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
4chan, le forum anonyme constitué d'un réseau d'échange d'images et d'autres sites web cachés qui façonnent les chatbots d'IA, récupérés dans la méga-bibliothèque de Google pour la formation des ML
Google a formé un modèle de langage qui serait capable de répondre aux questions d'ordre médicales avec une précision de 92,6 %, les médecins eux-mêmes ont obtenu un score de 92,9 %
Google prépare sa réponse à ChatGPT : développé par sa filiale DeepMind, Sparrow passera en bêta privée plus tard cette année. Contrairement à l'IA d'OpenAI, ce dernier devrait citer ses sources
Un ingénieur de Google a été congédié après avoir déclaré que le chatbot IA LaMDA de Google est devenu sensible et exprime des pensées et des sentiments équivalents à ceux d'un enfant humain
Un nouvel outil de recherche permet aux propriétaires de sites web de déterminer si leur contenu a été utilisé pour former des systèmes d'IA
Dans le cadre de l'ensemble de données C4 de Google
Un nouvel outil de recherche permet aux propriétaires de sites web de déterminer si leur contenu a été utilisé pour former des systèmes d'IA
Dans le cadre de l'ensemble de données C4 de Google
Le , par Nancy Rey
Une erreur dans cette actualité ? Signalez-nous-la !