Developpez.com - Rubrique IA

Le Club des Développeurs et IT Pro

Des tiers écoutent ce que vous dites à Google Home au motif de ce qu'il faut améliorer l'IA

D'après Google

Le 2019-07-11 08:03:47, par Patrick Ruiz, Chroniqueur Actualités
Google Home est une famille d’enceintes connectées à Internet que la firme de Mountain View associe à un programme informatique qui leur confère de « l’intelligence. » Dans le jargon du milieu, on parle d’assistant personnel intelligent et, du côté de la firme de Mountain View, c’est l’application Google Assistant que l’on retrouve aussi sur les smartphones qui officie.

Dans le principe, l’assistant personnel associé à un appareil (enceinte connectée, smartphone) est conçu pour recueillir les commandes vocales émises par un utilisateur. Ces dernières sont transmises à un serveur distant qui les analyse et donne suite à la requête que l’utilisateur a formulée. Le processus d’enregistrement est lancé par une commande vocale dédiée, ce qui suppose que sans elle rien ne se passe.

La Fondation de radio-télévision néerlandaise a obtenu une dizaine de tels enregistrements d’un collaborateur de Google – un employé d’un sous-traitant de la firme de Mountain View – qui, pour faire montre de crédibilité, a présenté son contrat de travail. L’organisme de la radiodiffusion flamande VRT est, par le même biais, rentré en possession d’un millier de contenus audios.

Dans ses conditions d’utilisateur, la firme de Mountain View n’est pas explicite à ce propos, mais ce qu’il faut bien souligner certains enregistrements sont passés en revue par des opérateurs humains. Le collaborateur de Google qui a tenu a resté sous anonymat l’a fait savoir. « Il est important que les gens se rendent compte que des tiers écoutent ces contenus », dit-il.

Ce dernier reçoit de Google quelques centimes par enregistrement pour écrire ce qu’il entend. « Sur les extraits, vous pouvez entendre comment des gens demandent à Google Home de régler l'alarme ou de vérifier les heures d'ouverture d'un magasin. D'autres demandent à Google de jouer leur musique préférée ou posent une question ludique pour tester l'appareil. Mais selon l'employé de Google, il lui arrive parfois d'entendre des commandes vocales très personnelles, par exemple des hommes qui demandent à Google de chercher des contenus pornographiques.

L’employé rapporte qu’il arrive aussi que l'enceinte connectée de la firme de Mountain View enregistre sans mot clé d'activation (Ok Google). Résultat des courses : certains audios n’ont rien à voir avec des commandes vocales destinées aux systèmes de Google. Il dit avoir écouté une douzaine d’échanges du type querelles ou conversations intimes. « Je me souviens d'un long extrait dans lequel j'ai senti qu'il y avait de la violence physique, dans lequel quelqu'un était dans le besoin, avec beaucoup de bruits de fond », rapporte la Fondation de radio-télévision néerlandaise.


Google a riposté à ces développements via un un billet de blog qui classe la fuite comme une faille de sécurité occasionée par le sous-traitant. L'entreprise a expliqué que ce processus d'examen est nécessaire pour que ses produits fonctionnent bien dans plusieurs langues, ce, bien que le même processus existe pour les enregistrements en anglais.

« Nous travaillons avec des experts en langues du monde entier pour améliorer nos technologies de traitement de la parole. Nous nous appuyons sur des transcriptions faites à partir d'un petit nombre de clips audio. Ce travail est crucial pour le développement de la technologie qui rend possible des produits tels que l'assistant Google. Les experts en langues ne passent en revue qu'environ 0,2 % de tous les clips audio qui ne sonte pas liés à des données personnelles. Nous avons récemment appris que l'un de ces experts en langue aurait violé notre politique de sécurité des données en divulguant des clips audio en néerlandais. Nous enquêtons de façon active sur cette affaire et lorsque nous constatons une violation de notre politique, nous prenons des mesures rapides qui peuvent aller jusqu'à la résiliation de notre contrat avec le partenaire », a déclaré Google en réponse aux publications liées à ces développements.

Ces derniers ne sont pas sans faire penser à ceux qui concernent un concurrent direct de la firme de Mountain View dans la filière des assistants personnels vocaux – Amazon. Il y a peu, le géant mondial du commerce en ligne a confirmé qu’il conserve les enregistrements vocaux obtenus via Alexa tant que les utilisateurs ne les suppriment pas. L’entreprise constitue ainsi une base de données de contenus audios dans laquelle ses employés peuvent puiser. Derrière, il y a un travail d’écoute, de transcription et d’annotation qui est fait par ces derniers.

Comme Google, Amazon a indiqué que ces employés ne passent en revue qu’un très faible échantillon d’enregistrements vocaux Alexa. En sus, l’entreprise a fait savoir que ces employés n’ont pas directement accès aux informations permettant d’identifier la personne ou le compte dans le cadre de ce flux de travail. Amazon se veut claire sur ceci que les opérations de traitement de données sont menées avec le terme confidentialité comme maître mot.

« Nous prenons au sérieux la sécurité et la confidentialité des informations personnelles de nos clients. Nous n'annotons qu'un nombre extrêmement faible d'interactions provenant d'un ensemble aléatoire de clients afin d'améliorer l’expérience de nos clients. Par exemple, ces informations nous aident à former nos systèmes de reconnaissance vocale et de compréhension du langage naturel, afin qu'Alexa puisse mieux comprendre vos demandes, ou nous assurer que le service fonctionne au mieux pour tout le monde. Nous mettons en œuvre des garanties techniques et opérationnelles strictes et avons une politique de tolérance zéro envers les abus sur notre système. Dans ce cadre, les employés n'ont pas d'accès direct à des informations qui leur permettraient d'identifier une personne ou un compte. Nous traitons toutes les informations avec la plus grande confidentialité, utilisons l'authentification multifactorielle pour restreindre l'accès, le cryptage du service et les audits de notre environnement de contrôle pour le protéger, et les clients peuvent également supprimer leurs interactions vocales avec Alexa à tout moment », a répondu l’entreprise.

Source : Fondation de radio-télévision néerlandaise, Google

Et vous ?

Qu’en pensez-vous ?

Aviez-vous connaissance de ce que ces enregistrements sont écoutés à nouveau par des humains ?

Cette approche est-elle d'une absolue nécessité en matière d'intelligence artificielle ?

Voir aussi :

Amazon atteint 100 millions de vente d'appareils intégrant Alexa, son assistant vocal intelligent
Amazon révèle que plus de 10 000 employés travaillent sur Alexa ainsi que sur les appareils Echo qu'il alimente
Alexa, le système vocal intelligent d'Amazon compte environ 80 000 applications dans son Store, mais aucune de vraiment célèbre
  Discussion forum
21 commentaires
  • sergio_is_back
    Expert confirmé
    Envoyé par onilink_
    C'est simple, un tel système peut être en local, et donc toute reconnaissance vocale restera chez toi.
    D’où l’intérêt d'avoir des technos comme ça en open source, sinon tu es obligé de passer par le cloud via de grosses boites qui feront ce qu'elles veulent, elles.
    Que ce soit local ou non, je n'ai pas besoin de ce genre de gadget !
  • bcag2
    Membre actif
    C'est pour cela qu'il faut une/des alternatives libre(s) à ces GAFAM,
    n'hésitez pas à participer à l'initiative de Mozilla dans ce sens : common voice
    https://voice.mozilla.org/fr
  • sergio_is_back
    Expert confirmé
    Envoyé par bcag2
    C'est pour cela qu'il faut une/des alternatives libre(s) à ces GAFAM,
    n'hésitez pas à participer à l'initiative de Mozilla dans ce sens : common voice
    https://voice.mozilla.org/fr
    Quand on ne veut pas être enregistré et écouté on invite pas ce genre de bestiole chez soi... De plus j'ai toujours pas compris l’intérêt de ces trucs là !
  • onilink_
    Membre émérite
    Envoyé par sergio_is_back
    Que ce soit local ou non, je n'ai pas besoin de ce genre de gadget !
    Moi non plus, mais ça reste quand même beaucoup mieux que ce genre de techno existe en open source et local, pour ceux qui justement en ont l'utilité ou le besoin.
    Parce que ça peut être utile, par exemple pour les mal voyants, ou encore juste pour le travail car avec un système customisé, tu peux créer tes propres commandes.

    Il faut aussi penser au cas ou si ce genre de techno se démocratise vraiment, si tu vas chez quelqu'un qui en a un, je préfère mille fois qu'il ai un truc custom local qui tourne sur un rpi plutôt qu'un google home ou nos conversation vont être espionnées si tu forces pas la personne à l'éteindre...
  • jc_granit
    Membre régulier
    L'internet des objets à encore frappé: Un gadget de plus, totalement inutile, mais un parfait espion de son intimité!
  • Anselme45
    Membre extrêmement actif
    Des tiers écoutent ce que vous dites à Google Home au motif de ce qu’il faut améliorer l'IA, d'après Google

    2 conclusions s'imposent:

    1. Contrairement à ce que vend Google (mais c'est la même chose pour Amazon & co), l'IA de leur "machins-choses" n'est pas aussi efficace que vendue et il faut des humains pour cacher l'incompétence de l'IA.

    Google n'a rien inventé: En 1770, un certain Johann Wolfgang von Kempelen a présenté à tous les monarques d'Europe sont "automate joueur aux échec" appelé le "Turc mécanique" (il faut imaginer un meuble sur lequel est disposé le jeu d'échec et un mannequin habillé en Turc qui manipule les pièces du jeu d'échec). En réalité, ce n'était pas l'automate qui jouait aux échecs mais un nain (tout ce qu'il y a de bien humain) qui était caché dans le meuble!!!

    2. Contrairement à ce qui est vendu, la vie privée des clients est violée; les clients ont payé pour avoir un espion dans leur salon!
  • onilink_
    Membre émérite
    @7gyY9w1ZY6ySRgPeaefZ
    Le problème c'est que les GAFAM nous montrent tous les jours qu'elles exploitent ce genre de données... justement pour des choses qu'elles ne devraient pas.
    Bref, tout aussi illégal, mais avec une portée bien plus dangereuse car il est plus difficile de couler un géant du web qu'un petit développeur dans son coin.

    Et on voit bien que les nombreux scandales de Facebook n'ont pas suffit a faire changer la donne. Car bien avant le scandale de CA, il y en a eu un petit paquet. Mais tout le monde s'en foutait et ça a pas été très médiatisé.
    Au final le scandale de CA les gens sont "offusqués" mais... ils restent quand même sur FB pour la plupart.
    Les amendes infligés sont aussi dérisoires quand on voit l'argent qu'ils se font grâce à l'utilisation illégale de ces données.
  • onilink_
    Membre émérite
    Envoyé par sergio_is_back
    Quand on ne veut pas être enregistré et écouté on invite pas ce genre de bestiole chez soi... De plus j'ai toujours pas compris l’intérêt de ces trucs là !
    C'est simple, un tel système peut être en local, et donc toute reconnaissance vocale restera chez toi.
    D’où l’intérêt d'avoir des technos comme ça en open source, sinon tu es obligé de passer par le cloud via de grosses boites qui feront ce qu'elles veulent, elles.
  • jc_granit
    Membre régulier
    Un prestataire de Google a divulgué plus de mille enregistrements vocaux de Google Assistant
    Un prestataire... Un tiers à qui une GAFAM a vendu des données... Etc...

    Le problème a toujours la même origine: Les GAFAM collectent les données de leur clients mais en plus les mettent à disposition de sociétés tierces qui elles...

    C'est sans fin et totalement incontrôlable!
  • Je m'étonne toujours de voir des personnes sur un forum de professionnels de l'informatique s'offusquer de fuites de données...
    Dans le cadre de votre travail, n'avez-vous jamais eu accès à des données plus ou moins sensibles mais que vous avez utilisé tout même sans sourciller ?
    Je suis dba alors vous pensez bien que si j'étais sans éthique et mal intentionné je serais devenu riche... ou black-listé et sans emploi !
    Un exemple, une banque a un problème avec un vieux logiciel employé pour les gros comptes et je demande plus d'information pour trouver le problème. Je reçois par courriel une liste de clients dans un excel « sécurisé » dans un zip avec mot de passe... Je vous laisse dénombrer le nombre de failles de sécurité là-dedans... Et ce que j'aurais potentiellement pu faire de ces trop nombreuses informations...
    Des exemples comme ça, j'en ai bien sûr des tonnes sans doute comme nous tous...

    Est-ce que le problème ne serait pas plus fondamental à notre secteur au lieu de simplement cibler les GAFA - qui sont juste de très grosses boites informatiques ni plus pures ni moins capitalistes que la majorité de nos employeurs ?