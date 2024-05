Enrôlement du locuteur : l’utilisateur regarde la personne qui parle pendant trois à cinq secondes. Le système « enrôle » cette personne en analysant ses modèles vocaux.

l’utilisateur regarde la personne qui parle pendant trois à cinq secondes. Le système « enrôle » cette personne en analysant ses modèles vocaux. Annulation des autres sons : une fois le locuteur enrôlé, le système annule tous les autres sons de l’environnement et diffuse uniquement la voix du locuteur dans les écouteurs de l’utilisateur, même lorsque ce dernier se déplace dans des endroits bruyants et ne fait plus face au locuteur initial.

une fois le locuteur enrôlé, le système annule tous les autres sons de l’environnement et diffuse uniquement la voix du locuteur dans les écouteurs de l’utilisateur, même lorsque ce dernier se déplace dans des endroits bruyants et ne fait plus face au locuteur initial. Amélioration de la clarté : le système s’améliore à mesure que le locuteur continue de parler, car il accumule davantage de données d’entraînement.

Dans les lieux très fréquentés, le cerveau humain peut se concentrer sur la parole d'un locuteur cible, compte tenu de sa connaissance préalable de la manière dont il s'exprime. Nous présentons un nouveau système auditif intelligent qui atteint cette capacité, permettant à l'audition de la parole cible d'ignorer toutes les paroles et tous les bruits parasites, à l'exception du locuteur cible. Une approche naïve consiste à exiger un exemple de parole propre pour enregistrer le locuteur cible. Cette approche n'est cependant pas adaptée au domaine des applications auditives, car l'obtention d'un exemple propre est difficile dans les scénarios réels, ce qui crée un problème d'interface utilisateur unique.



Nous présentons la première interface d'enrôlement où le porteur regarde le locuteur cible pendant quelques secondes pour capturer un seul exemple binaural, court et très bruyant du locuteur cible. Cet exemple bruité est utilisé pour l'enrôlement et l'extraction ultérieure de la parole en présence de locuteurs et de bruits parasites. Notre système permet d'améliorer la qualité du signal de 7,01 dB en utilisant moins de 5 secondes d'audio d'inscription bruyant et peut traiter des morceaux d'audio de 8 ms en 6,24 ms sur un processeur intégré.



Nos études sur les utilisateurs démontrent la généralisation à des locuteurs statiques et mobiles du monde réel dans des environnements intérieurs et extérieurs à trajets multiples jamais vus auparavant. Enfin, notre interface d'enrôlement pour les exemples bruyants n'entraîne pas de dégradation des performances par rapport aux exemples propres, tout en étant pratique et conviviale. En prenant un peu de recul, cet article marque une étape importante dans l'amélioration de la perception auditive humaine grâce à l'intelligence artificielle. Dans les lieux très fréquentés, le cerveau humain peut se concentrer sur la parole d'un locuteur cible, compte tenu de sa connaissance préalable de la manière dont il s'exprime. Nous présentons un nouveau système auditif intelligent qui atteint cette capacité, permettant à l'audition de la parole cible d'ignorer toutes les paroles et tous les bruits parasites, à l'exception du locuteur cible. Une approche naïve consiste à exiger un exemple de parole propre pour enregistrer le locuteur cible. Cette approche n'est cependant pas adaptée au domaine des applications auditives, car l'obtention d'un exemple propre est difficile dans les scénarios réels, ce qui crée un problème d'interface utilisateur unique.Nous présentons la première interface d'enrôlement où le porteur regarde le locuteur cible pendant quelques secondes pour capturer un seul exemple binaural, court et très bruyant du locuteur cible. Cet exemple bruité est utilisé pour l'enrôlement et l'extraction ultérieure de la parole en présence de locuteurs et de bruits parasites. Notre système permet d'améliorer la qualité du signal de 7,01 dB en utilisant moins de 5 secondes d'audio d'inscription bruyant et peut traiter des morceaux d'audio de 8 ms en 6,24 ms sur un processeur intégré.Nos études sur les utilisateurs démontrent la généralisation à des locuteurs statiques et mobiles du monde réel dans des environnements intérieurs et extérieurs à trajets multiples jamais vus auparavant. Enfin, notre interface d'enrôlement pour les exemples bruyants n'entraîne pas de dégradation des performances par rapport aux exemples propres, tout en étant pratique et conviviale. En prenant un peu de recul, cet article marque une étape importante dans l'amélioration de la perception auditive humaine grâce à l'intelligence artificielle.

Au-delà de l'utilisation de l'IA comme chatbot pour répondre à des questions

Avantages et inconvénients des écouteurs intelligents

Clarté de la communication : imaginez assister à une conférence ou à un concert et pouvoir entendre distinctement le conférencier ou l’artiste, même lorsque la salle est bruyante. Les écouteurs intelligents peuvent améliorer la qualité de la communication dans ces situations.

imaginez assister à une conférence ou à un concert et pouvoir entendre distinctement le conférencier ou l’artiste, même lorsque la salle est bruyante. Les écouteurs intelligents peuvent améliorer la qualité de la communication dans ces situations. Concentration accrue : pour les étudiants, les travailleurs nomades ou les amateurs de lecture, ces écouteurs peuvent aider à se concentrer sur une tâche spécifique en filtrant les distractions sonores.

pour les étudiants, les travailleurs nomades ou les amateurs de lecture, ces écouteurs peuvent aider à se concentrer sur une tâche spécifique en filtrant les distractions sonores. Accessibilité : les personnes malentendantes pourraient bénéficier de cette technologie pour mieux comprendre les conversations dans des environnements bruyants.

Surveillance potentielle : les écouteurs intelligents collectent des données vocales sur les utilisateurs. Comment ces données seront-elles utilisées ? Devrions-nous nous inquiéter de la confidentialité et de la surveillance ?

les écouteurs intelligents collectent des données vocales sur les utilisateurs. Comment ces données seront-elles utilisées ? Devrions-nous nous inquiéter de la confidentialité et de la surveillance ? Déconnexion sociale : en se concentrant sur une seule voix, l’utilisateur peut perdre la perception des autres sons et des interactions sociales. Cela pourrait-il affecter nos relations avec les autres ?

Conclusion

Les casques antibruit sont devenus très efficaces pour créer une ardoise auditive vierge. Mais permettre à certains sons de l'environnement de l'utilisateur de passer à travers l'effacement reste un défi pour les chercheurs. La dernière édition des AirPods Pro d'Apple, par exemple, ajuste automatiquement les niveaux sonores en fonction des utilisateurs - en détectant les conversations, par exemple - mais l'utilisateur n'a que peu de contrôle sur les personnes qu'il écoute ou sur le moment où cela se produit.Une équipe de l'université de Washington a mis au point un système d'intelligence artificielle qui permet à un utilisateur portant des écouteurs de regarder une personne parler pendant trois à cinq secondes pour « l'inscrire ». Le système, appelé « Target Speech Hearing », annule alors tous les autres sons de l'environnement et ne diffuse que la voix de l'orateur inscrit en temps réel, même si l'auditeur se déplace dans des endroits bruyants et ne fait plus face à l'orateur.L'équipe a présenté ses résultats le 14 mai à Honolulu, lors de la conférence ACM CHI sur les facteurs humains dans les systèmes informatiques. Le code du dispositif de validation du concept est disponible pour que d'autres puissent s'en inspirer. Le système n'est pas disponible dans le commerce.En voici le résumé :« Nous avons tendance à considérer l'IA comme un chatbot en ligne qui répond à des questions », explique l'auteur principal, Shyam Gollakota, professeur à la Paul G. Allen School of Computer Science & Engineering de l'université de Washington. « Mais dans ce projet, nous développons l'IA pour modifier la perception auditive de toute personne portant un casque, en fonction de ses préférences. Avec nos appareils, vous pouvez désormais entendre clairement un seul orateur, même si vous vous trouvez dans un environnement bruyant avec beaucoup d'autres personnes qui parlent ».Pour utiliser le système, une personne portant des écouteurs standard équipés de microphones appuie sur un bouton tout en dirigeant sa tête vers une personne qui parle. Les ondes sonores de la voix de cette personne doivent alors atteindre simultanément les microphones des deux côtés du casque ; il y a une marge d'erreur de 16 degrés. Le casque envoie ce signal à un ordinateur embarqué, où le logiciel d'apprentissage automatique de l'équipe apprend les modèles vocaux de l'orateur souhaité. Le système s'accroche à la voix de ce locuteur et continue à la restituer à l'auditeur, même lorsque le couple se déplace. La capacité du système à se concentrer sur la voix enregistrée s'améliore au fur et à mesure que le locuteur continue de parler, ce qui permet au système de disposer de plus de données d'entraînement.L'équipe a testé son système sur 21 sujets, qui ont évalué la clarté de la voix de l'orateur inscrit près de deux fois supérieure à celle de l'audio non filtré en moyenne.Ces travaux s'appuient sur les recherches antérieures de l'équipe en matière « d'audition sémantique », qui permettaient aux utilisateurs de sélectionner des classes de sons spécifiques - telles que des oiseaux ou des voix - qu'ils souhaitaient entendre et d'annuler les autres sons de l'environnement.Actuellement, le système TSH ne peut inscrire qu'un seul locuteur à la fois, et il ne peut inscrire un locuteur que s'il n'y a pas d'autre voix forte provenant de la même direction que la voix du locuteur cible. Si un utilisateur n'est pas satisfait de la qualité du son, il peut procéder à une nouvelle inscription du haut-parleur pour améliorer la clarté.L'équipe travaille à l'extension du système aux oreillettes et aux prothèses auditives dans le futur.Les écouteurs intelligents sont une avancée passionnante dans le domaine de l’audio. Ils offrent des avantages indéniables, mais soulèvent également des questions.Bien que ce système ne puisse enrôler qu’un seul locuteur à la fois pour le moment, il ouvre la voie à des applications intéressantes dans les environnements bruyants tels que les transports en commun, les conférences et les rassemblements. Malheureusement, ce système n’est pas encore disponible commercialement, mais il montre comment l’intelligence artificielle peut améliorer notre expérience auditive dans des situations complexes.Alors que nous attendons leur disponibilité commerciale, il est essentiel de réfléchir à la manière dont nous souhaitons utiliser cette technologie et à ses implications pour notre société.Sources : PoC Look Once to Hear Seriez-vous prêt à utiliser des écouteurs intelligents pour filtrer les bruits de fond et vous concentrer sur une seule voix ? Pensez aux avantages (comme la clarté de la communication) et aux inconvénients (comme la déconnexion des autres sons de l’environnement).Quelles autres applications pourriez-vous imaginer pour cette technologie ? En dehors des environnements bruyants, comment pourraient-ils améliorer notre vie quotidienne ?Quelles sont les implications éthiques de cette technologie ? Devrions-nous nous inquiéter de la surveillance potentielle ou de l’utilisation abusive de cette capacité d’écoute sélective ?Comment pensez-vous que les entreprises technologiques devraient gérer la confidentialité et la sécurité des données liées à ces écouteurs intelligents ? Devraient-elles être transparentes sur la collecte et l’utilisation des données vocales ?Pensez-vous que cette technologie pourrait changer notre façon de communiquer et d’interagir avec les autres ? En quoi cela pourrait-il influencer nos relations sociales ?