La communauté Science des données ébranlée par un scandale de tricherie au concours d'adoption d'animaux de compagnie,

Certains programmeurs étant simplement intéressés par leur classement kaggle

Le 17 janvier 2020 à 15:31, par Stan Adkens

0PARTAGES

La supercherie d’une équipe de programmeurs a été découverte par un adolescent après avoir triché à un concours d'apprentissage machine organisé par Kaggle pour faciliter l'adoption d'animaux de compagnie. Kraggle, filiale de Google, est une plateforme web organisant des compétitions en science des données avec des prix souvent de plusieurs dizaines de milliers de dollars. La société a annoncé vendredi que le gagnant d'un concours impliquant un site d'adoption d'animaux de compagnie avait été disqualifié du concours pour avoir obtenu frauduleusement et masqué des données d'ensembles de tests.

Dans le concours, il s’agissait pour les participants de développer des algorithmes pour prédire le taux d'adoption d'animaux de compagnie en se basant sur les listes d'animaux de PetFinder.my, un site malaisien d'adoption d'animaux de compagnie. Le but étant d'aider à découvrir ce qui rend le profil en ligne d'un animal de compagnie de refuge attrayant pour les adoptants. Selon les principes sur le site Web du concours, l'équipe gagnante devait « adapter son profil aux outils d'IA qui aideront les refuges et les sauveteurs du monde entier à améliorer l'attrait de leur profil, à réduire la souffrance des animaux et à les euthanasier ».

L’équipe gagnante du concours s’appelle BestPetting et son algorithme semblait prédire presque parfaitement le taux d'adoption de l'ensemble de tests par rapport auquel les soumissions ont été évaluées. Ce qui a valu l’algorithme un score presque parfait de 0,912 (sur 1,0), et à l’équipe de trois personnes un prix de 10 000 dollars pour sa solution gagnante. Il faut noter que les programmeurs de BestPetting ont créé un site Web d'adoption d'animaux de compagnie avant de participer au concours.

La tricherie découverte de BestPetting

Neuf mois après la fin de la compétition, Benjamin Minixhofer, un adolescent autrichien passionné de l'apprentissage machine, qui a été classé sixième au concours, a bien voulu en savoir plus sur les résultats impressionnants de l’équipe gagnante. Minixhofer s'est porté volontaire pour aider l'entreprise à intégrer les solutions gagnantes dans le site Web PetFinder.my. C’est ainsi qu’il a découvert que les programmeurs de BestPetting avaient obtenu les données de test de PetFinder.my, probablement en grattant les données de Kaggle ou de PetFinder.my, puis avait encodé et décodé ces données dans leur algorithme pour masquer leur avantage illicite.

Dans son post expliquant que BesPetting avait été disqualifiée, Andy Koh, le fondateur de PetFinder.my a écrit que l’équipe n’a utilisé que « certaines des réponses encodées, afin de garder leur score final "réaliste" ». « Il est très triste que des personnes aussi brillantes, y compris un grand maître Kaggle très respecté, aient fait tout ce qu'il fallait pour frauder une compétition sur le bien-être visant à sauver de précieuses vies animales, uniquement pour leur propre profit financier », a-t-il ajouté.

La tricherie était aussi difficile à découvrir parce que les programmeurs ont déguisé la plupart de leur encodage et décodage en couches sur les couches d'appels de fonctions et de valeurs de retour, dont la plupart avaient des noms communs apparemment banals comme "get_dict" ou "process". De plus, l'équipe a pris soin de n'échanger les données qu'une fois pour dix animaux de compagnie, pour éviter d'éveiller des soupçons avec un résultat absolument parfait. Selon les calculs de Minixhofer, « leur soumission aurait obtenu la 100e place avec un score de 0,427526 sans la tricherie ».

Certains participants sont simplement intéressés à gagner des prix et grimper dans le classement virtuel et non pour aider à protéger les animaux

La tricherie n'est pas rare dans les compétitions de Kaggle, où, pour certains, la gloire d'atteindre des rangs comme "Expert" et "Grand Maître" est aussi importante que les prix exorbitants en argent. Mais de nombreux membres de la communauté Science des données sont particulièrement choqués par cette dernière fraude à cause de ce que plusieurs des participants avaient un rang élevé à Kaggle et aussi du niveau d'effort déployé par ces derniers pour tromper la vigilance de la communauté. En effet, selon le rapport sur l'affaire, le spécialiste des données Pavel Pleskov, qui est associé à l’escroquerie, était auparavant un grand maître de Kaggle de haut niveau avec de nombreuses victoires à son actif.

Pleskov a été banni définitivement de Kaggle, car « des preuves indiquent qu'il est le principal responsable de cette activité frauduleuse ». Sur Twitter, Pleskov s'est excusé au nom de son équipe et a indiqué qu'il avait l'intention de rendre l'argent du prix à PetFinder.my, a rapporté Motherboard. « Pour moi, il ne s'agissait jamais de l'argent, mais plutôt des points Kaggle : une lutte constante pour devenir le numéro 1 du classement avait compromis mon jugement », a-t-il écrit. « J'espère qu'au moins certains d'entre vous me pardonneront et que les autres concurrents apprendront de mes erreurs », a-t-il ajouté.

Dans un article intitulé "Parlons de tricherie" posté sur le site Web de Kaggle, on peut lire que « La tricherie, sous quelque forme que ce soit, érode la génialité de la communauté Kaggle. À cause des récents événements, j'aimerais réexprimer et renforcer la position de Kaggle sur la tricherie ». « Avant tout, la tricherie n'est pas prise à la légère. Nous surveillons la conformité pendant les compétitions et nous passons un temps considérable à la fin de chaque compétition pour examiner les activités suspectes et pour retirer du classement les personnes qui ont triché. Lorsque nous croyons avoir suffisamment de preuves, nous prenons des mesures ». Cependant, c’est neuf mois après la fin de la compétition que l’escroquerie a été démasquée.

Quant à Pleskov, il se souviendra encore longtemps de sa participation à cette tricherie. En plus de perdre son titre de Grand Maître, il a également perdu son emploi à la société de logiciels libres H2O.ai, qui avait mis spécifiquement en évidence le titre de Grands Maîtres Kaggle de son employé sur son site web. Après avoir appris l’affaire, la société a déclaré :

« Le comportement et les actions dont nous avons pris connaissance samedi concernant la compétition Kaggle ne reflètent pas les valeurs de l'entreprise ». « Cet individu a participé à ce concours avant d'être employé chez nous. Nous avons mené une enquête et cette personne n'est plus affiliée à H2O.ai ».

Suite cet événement, Minixhofer a recommandé que Kaggle fasse davantage pour décourager les comportements malveillants. Pour lui, Kaggle devrait exiger que toutes les solutions soient publiques et open source. Bien que les règles des concours stipulent que les solutions doivent être open source, cela signifie seulement que les algorithmes doivent être développés sous une licence open source, et non qu'ils doivent être rendus publics. « C'est une faille dans les règles qui est même mal comprise par les organisateurs de concours », a-t-il dit. Mettre en place de nouvelles règles à cet effet « permettrait d'éviter ces incidents à l'avenir », a-t-il ajouté.

Le fait qu'une équipe ait triché dans un concours visant à aider à protéger les animaux soulève également la question de savoir si les personnes qui participent à des concours d'apprentissage machine comme Kaggle sont réellement intéressées à rendre le monde meilleur, ou si elles veulent simplement gagner des prix en argent et grimper dans les classements virtuels.

Source : kaggle

Et vous ?

Qu’en pensez-vous ?

Le concours aurait-il enregistré un algorithme qui prédit presque parfaitement si BestPetting n’avait pas obtenu les données de test d’avance ?

Peut-on détecter toutes les fraudes dans ce genre de concours ?

Lire aussi

IA : les algorithmes d'OpenAI qui ont fait équipe pour battre des humains au Dota 2 auraient triché, selon un joueur professionnel

Les chauffeurs d'Uber auraient manipulé le système de tarification de la société pour forcer la hausse des prix, avant de prendre des passagers

Microsoft veut développer des solutions basées sur l'IA pour prédire la probabilité qu'un ordinateur soit infecté, par un logiciel malveillant

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

La communauté Science des données ébranlée par un scandale de tricherie au concours d'adoption d'animaux de compagnie,

Certains programmeurs étant simplement intéressés par leur classement kaggle

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

La communauté Science des données ébranlée par un scandale de tricherie au concours d'adoption d'animaux de compagnie, Certains programmeurs étant simplement intéressés par leur classement kaggle

La communauté Science des données ébranlée par un scandale de tricherie au concours d'adoption d'animaux de compagnie,

Certains programmeurs étant simplement intéressés par leur classement kaggle