Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

La communauté Science des données ébranlée par un scandale de tricherie au concours d'adoption d'animaux de compagnie,
Certains programmeurs étant simplement intéressés par leur classement kaggle

Le , par Stan Adkens

0PARTAGES

9  0 
La supercherie d’une équipe de programmeurs a été découverte par un adolescent après avoir triché à un concours d'apprentissage machine organisé par Kaggle pour faciliter l'adoption d'animaux de compagnie. Kraggle, filiale de Google, est une plateforme web organisant des compétitions en science des données avec des prix souvent de plusieurs dizaines de milliers de dollars. La société a annoncé vendredi que le gagnant d'un concours impliquant un site d'adoption d'animaux de compagnie avait été disqualifié du concours pour avoir obtenu frauduleusement et masqué des données d'ensembles de tests.

Dans le concours, il s’agissait pour les participants de développer des algorithmes pour prédire le taux d'adoption d'animaux de compagnie en se basant sur les listes d'animaux de PetFinder.my, un site malaisien d'adoption d'animaux de compagnie. Le but étant d'aider à découvrir ce qui rend le profil en ligne d'un animal de compagnie de refuge attrayant pour les adoptants. Selon les principes sur le site Web du concours, l'équipe gagnante devait « adapter son profil aux outils d'IA qui aideront les refuges et les sauveteurs du monde entier à améliorer l'attrait de leur profil, à réduire la souffrance des animaux et à les euthanasier ».


L’équipe gagnante du concours s’appelle BestPetting et son algorithme semblait prédire presque parfaitement le taux d'adoption de l'ensemble de tests par rapport auquel les soumissions ont été évaluées. Ce qui a valu l’algorithme un score presque parfait de 0,912 (sur 1,0), et à l’équipe de trois personnes un prix de 10 000 dollars pour sa solution gagnante. Il faut noter que les programmeurs de BestPetting ont créé un site Web d'adoption d'animaux de compagnie avant de participer au concours.

La tricherie découverte de BestPetting

Neuf mois après la fin de la compétition, Benjamin Minixhofer, un adolescent autrichien passionné de l'apprentissage machine, qui a été classé sixième au concours, a bien voulu en savoir plus sur les résultats impressionnants de l’équipe gagnante. Minixhofer s'est porté volontaire pour aider l'entreprise à intégrer les solutions gagnantes dans le site Web PetFinder.my. C’est ainsi qu’il a découvert que les programmeurs de BestPetting avaient obtenu les données de test de PetFinder.my, probablement en grattant les données de Kaggle ou de PetFinder.my, puis avait encodé et décodé ces données dans leur algorithme pour masquer leur avantage illicite.

Dans son post expliquant que BesPetting avait été disqualifiée, Andy Koh, le fondateur de PetFinder.my a écrit que l’équipe n’a utilisé que « certaines des réponses encodées, afin de garder leur score final "réaliste" ». « Il est très triste que des personnes aussi brillantes, y compris un grand maître Kaggle très respecté, aient fait tout ce qu'il fallait pour frauder une compétition sur le bien-être visant à sauver de précieuses vies animales, uniquement pour leur propre profit financier », a-t-il ajouté.

La tricherie était aussi difficile à découvrir parce que les programmeurs ont déguisé la plupart de leur encodage et décodage en couches sur les couches d'appels de fonctions et de valeurs de retour, dont la plupart avaient des noms communs apparemment banals comme "get_dict" ou "process". De plus, l'équipe a pris soin de n'échanger les données qu'une fois pour dix animaux de compagnie, pour éviter d'éveiller des soupçons avec un résultat absolument parfait. Selon les calculs de Minixhofer, « leur soumission aurait obtenu la 100e place avec un score de 0,427526 sans la tricherie ».

Certains participants sont simplement intéressés à gagner des prix et grimper dans le classement virtuel et non pour aider à protéger les animaux

La tricherie n'est pas rare dans les compétitions de Kaggle, où, pour certains, la gloire d'atteindre des rangs comme "Expert" et "Grand Maître" est aussi importante que les prix exorbitants en argent. Mais de nombreux membres de la communauté Science des données sont particulièrement choqués par cette dernière fraude à cause de ce que plusieurs des participants avaient un rang élevé à Kaggle et aussi du niveau d'effort déployé par ces derniers pour tromper la vigilance de la communauté. En effet, selon le rapport sur l'affaire, le spécialiste des données Pavel Pleskov, qui est associé à l’escroquerie, était auparavant un grand maître de Kaggle de haut niveau avec de nombreuses victoires à son actif.


Pleskov a été banni définitivement de Kaggle, car « des preuves indiquent qu'il est le principal responsable de cette activité frauduleuse ». Sur Twitter, Pleskov s'est excusé au nom de son équipe et a indiqué qu'il avait l'intention de rendre l'argent du prix à PetFinder.my, a rapporté Motherboard. « Pour moi, il ne s'agissait jamais de l'argent, mais plutôt des points Kaggle : une lutte constante pour devenir le numéro 1 du classement avait compromis mon jugement », a-t-il écrit. « J'espère qu'au moins certains d'entre vous me pardonneront et que les autres concurrents apprendront de mes erreurs », a-t-il ajouté.

Dans un article intitulé "Parlons de tricherie" posté sur le site Web de Kaggle, on peut lire que « La tricherie, sous quelque forme que ce soit, érode la génialité de la communauté Kaggle. À cause des récents événements, j'aimerais réexprimer et renforcer la position de Kaggle sur la tricherie ». « Avant tout, la tricherie n'est pas prise à la légère. Nous surveillons la conformité pendant les compétitions et nous passons un temps considérable à la fin de chaque compétition pour examiner les activités suspectes et pour retirer du classement les personnes qui ont triché. Lorsque nous croyons avoir suffisamment de preuves, nous prenons des mesures ». Cependant, c’est neuf mois après la fin de la compétition que l’escroquerie a été démasquée.

Quant à Pleskov, il se souviendra encore longtemps de sa participation à cette tricherie. En plus de perdre son titre de Grand Maître, il a également perdu son emploi à la société de logiciels libres H2O.ai, qui avait mis spécifiquement en évidence le titre de Grands Maîtres Kaggle de son employé sur son site web. Après avoir appris l’affaire, la société a déclaré :

« Le comportement et les actions dont nous avons pris connaissance samedi concernant la compétition Kaggle ne reflètent pas les valeurs de l'entreprise ». « Cet individu a participé à ce concours avant d'être employé chez nous. Nous avons mené une enquête et cette personne n'est plus affiliée à H2O.ai ».

Suite cet événement, Minixhofer a recommandé que Kaggle fasse davantage pour décourager les comportements malveillants. Pour lui, Kaggle devrait exiger que toutes les solutions soient publiques et open source. Bien que les règles des concours stipulent que les solutions doivent être open source, cela signifie seulement que les algorithmes doivent être développés sous une licence open source, et non qu'ils doivent être rendus publics. « C'est une faille dans les règles qui est même mal comprise par les organisateurs de concours », a-t-il dit. Mettre en place de nouvelles règles à cet effet « permettrait d'éviter ces incidents à l'avenir », a-t-il ajouté.

Le fait qu'une équipe ait triché dans un concours visant à aider à protéger les animaux soulève également la question de savoir si les personnes qui participent à des concours d'apprentissage machine comme Kaggle sont réellement intéressées à rendre le monde meilleur, ou si elles veulent simplement gagner des prix en argent et grimper dans les classements virtuels.

Source : kaggle

Et vous ?

Qu’en pensez-vous ?
Le concours aurait-il enregistré un algorithme qui prédit presque parfaitement si BestPetting n’avait pas obtenu les données de test d’avance ?
Peut-on détecter toutes les fraudes dans ce genre de concours ?

Lire aussi

IA : les algorithmes d'OpenAI qui ont fait équipe pour battre des humains au Dota 2 auraient triché, selon un joueur professionnel
Les chauffeurs d'Uber auraient manipulé le système de tarification de la société pour forcer la hausse des prix, avant de prendre des passagers
Microsoft veut développer des solutions basées sur l'IA pour prédire la probabilité qu'un ordinateur soit infecté, par un logiciel malveillant

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de SimonDecoline
Expert confirmé https://www.developpez.com
Le 18/01/2020 à 14:24
Citation Envoyé par calvaire Voir le message
Il y'a pas mal d'expérience sociologique qui ont montré que un individus lambda pouvais commettre facilement des crimes contre l'humanité contre beaucoup d'argent si ils pouvais le faire sans se faire prendre. c'est la nature humaine, il ne faut pas croire Miss France.
Peut-on avoir des liens vers les articles en question ?
Perso j'ai plutôt entendu l'inverse : plus les gens sont conscients des conséquences néfastes d'une action et moins ils sont disposés à la réaliser, même si on les y encourage d'un moyen ou d'un autre.

Par contre, j'ai régulièrement entendu des gens se déresponsabiliser d'une action peu glorieuse en prétextant que "tout le monde aurait fait pareil".
2  0 
Avatar de calvaire
Membre éprouvé https://www.developpez.com
Le 17/01/2020 à 22:26
sont réellement intéressées à rendre le monde meilleur, ou si elles veulent simplement gagner des prix en argent et grimper dans les classements virtuels.
Il me semble naïf de croire que des gens font des concours pour un monde meilleur et pas par cupidité...
j'en ai déja fais de ce genre de concours et la cause de ce concours je m'en moque, j'y vais c'est pour gagner, pour avoir de la gloire et de la renommé, étendre mon réseau pro et trouver un job plus intéressant et mieux payé...
Ils suffit de voir comment on se prostitue tous sur linkedin par exemple... moi le 1er évidement je suis un homme pas un dieu.

ceux qui font de la data science, ils ne le font pas pour créer un monde meilleur (en tous cas j'en connais aucun...), ils font cela souvent parce qu’ils aiment cette discipline évidement mais aussi parce que c'est un domaine porteur dans notre industrie avec des salaire pas trop mauvais.
Ne soyons pas naïf SVP.

Alors inversement, se serais des causes politiquement pas correcte style concevoir un IA pour exterminer plus facilement des iraniens ils n'y aurais pas grand monde, pas éthique et immorale certainement mais aussi et surtout pour pas se faire griller sa carrière et sa réputation.
Il y'a pas mal d'expérience sociologique qui ont montré que un individus lambda pouvais commettre facilement des crimes contre l'humanité contre beaucoup d'argent si ils pouvais le faire sans se faire prendre. c'est la nature humaine, il ne faut pas croire Miss France.

Vous vous êtes jamais demandé a partir de combien d'€ vous seriez prêt a voler des infos/projets de votre entreprise pour des espions chinois ?
1  0