Microsoft Copilot peut désormais lire ce qui est affiché sur votre écran pour vous donner des réponses contextuelles

Vous parler à voix haute et résoudre des problèmes complexes

Le 2 octobre 2024 à 10:43, par Stéphane le calme

234PARTAGES

Une semaine après avoir annoncé une vague de mises à jour pour sa suite de produits d'entreprise Copilot alimentés par l'IA, Microsoft lance de nouvelles fonctionnalités Copilot sur Windows pour tous les utilisateurs, y compris un outil qui peut comprendre et répondre à des questions sur ce qui est affiché à l'écran.

Les nouvelles applications Copilot pour iOS, Android, Windows et le web sont désormais disponibles et présentent toutes un Copilot au style plus « chaleureux » et « distinct », comme le décrit Microsoft. Microsoft intègre également le chatbot à WhatsApp, permettant aux utilisateurs de discuter avec Copilot par messagerie privée, comme ils le font déjà avec d'autres bots sur la plateforme de messagerie de Meta.

« Notre nouveau Copilot se veut plus intuitif et propose des réponses plus digestes, plus rapides et plus fluides. Il s'adapte désormais à vous avec un ton chaleureux et un style distinct, vous fournissant non seulement des informations mais aussi des encouragements, des commentaires et des conseils pour vous aider à relever les défis quotidiens de la vie, qu'ils soient petits ou grands. Par exemple, en plus de vous aider à planifier ce grand voyage, il peut également vous donner des conseils sur la manière de garder votre sang-froid lorsque, par exemple, le dossier de votre siège reçoit des coups de pied d'un enfant en bas âge.

« Nous ajoutons des fonctionnalités avancées, telles que la voix et la vision, qui le rendent à la fois plus utile et plus naturel. Ces modalités changent la façon dont nous nous connectons à la technologie, permettant aux gens de réfléchir, d'apprendre et de travailler en toute transparence avec leurs compagnons Copilot ».

Lecture de l’écran et analyse contextuelle avec Copilot Vision

Copilot Vision a une vision de ce que vous regardez sur votre PC (plus précisément, une vision des sites que vous visitez avec Microsoft Edge). Relié à Copilot Labs, un nouveau programme d'opt-in exclusif à Copilot Pro pour les fonctionnalités expérimentales de Copilot, Copilot Vision peut analyser le texte et les images des pages web et répondre à des questions (par exemple, « Quelle est la recette du plat sur cette image ? ») à leur sujet.

Vision, que l'on peut obtenir en tapant « @copilot » dans la barre d'adresse d'Edge, n'est pas exactement une merveille technique. Google propose une technologie de recherche similaire sur Android et a récemment intégré des éléments de cette technologie dans Chrome.

Mais Microsoft laisse entendre que Copilot Vision est plus puissant et plus respectueux de la vie privée que les précédentes fonctions d'analyse d'écran.

Copilot peut « comprend la page web que vous consultez, qu'il s'agisse de texte ou d'images, et peut répondre à des questions sur son contenu, suggérer les prochaines étapes et vous aider sans perturber votre flux de travail. Imaginez que vous essayez de meubler un nouvel appartement, Copilot Vision peut vous aider à rechercher des meubles, à trouver la bonne palette de couleurs, à réfléchir aux options qui s'offrent à vous, des tapis aux jetés, et même à vous suggérer des façons d'agencer ce que vous regardez ».

Autre exemple : si vous regardez une recette en ligne, Copilot peut vous fournir des informations supplémentaires sur les ingrédients ou même suggérer des variantes de la recette.

Sans doute désireux d'éviter une nouvelle vague de mauvaise presse liée aux erreurs de confidentialité de l'IA, Microsoft insiste sur le fait que Copilot Vision a été conçu pour supprimer les données immédiatement après les conversations. Les données audio, les images ou le texte traités ne sont pas stockés ou utilisés pour former des modèles, affirme l'entreprise - du moins pas dans cette version de prévisualisation.

Copilot Vision est également limité dans les types de sites web qu'il peut interpréter. Pour l'instant, Microsoft empêche la fonctionnalité de fonctionner sur les contenus payants et « sensibles », limitant Vision à une liste préapprouvée de propriétés web « populaires ».

Qu'entend-on exactement par contenu « sensible » ? Du porno ? De la violence ? À ce stade, Microsoft n'a pas voulu le dire.

Les accusations de contournement des paywalls à l'aide d'outils d'intelligence artificielle ont récemment valu à Microsoft de se retrouver dans une situation juridique délicate. Dans une action en justice en cours, le New York Times allègue que Microsoft a permis aux utilisateurs de contourner son paywall en diffusant des articles du quotidien par l'intermédiaire du chatbot Copilot sur Bing. Lorsqu'il était sollicité d'une certaine manière, Copilot (qui s'appuie sur les modèles d'OpenAI, un proche collaborateur de Microsoft) donnait des extraits textuels (ou presque) d'articles payants, selon le Times.

Microsoft a déclaré que Copilot Vision, qui n'est pour l'instant disponible qu'aux États-Unis, respectera les « contrôles de l'IA lisibles par les machines » des sites, comme les règles interdisant aux robots de récupérer des données pour l'entraînement à l'IA. Mais l'entreprise n'a pas précisé quels contrôles Vision respectera, car il en existe plusieurs.

De plus, de nombreux grands éditeurs ont choisi d'empêcher les outils d'IA de parcourir leurs sites web, non seulement par crainte que leurs données ne soient utilisées sans autorisation, mais aussi pour éviter que ces outils ne fassent grimper en flèche les coûts de leurs serveurs. Si la tendance actuelle se confirme, Copilot Vision pourrait ne pas fonctionner sur certains des principaux sites d'information du web.

Microsoft a déclaré qu'elle s'engageait à « prendre en compte les réactions » pour apaiser les inquiétudes.

Envoyé par Microsoft

La sécurité est notre priorité absolue :

Les sessions de Copilot Vision sont entièrement facultatives et éphémères. Aucun des contenus auxquels Copilot Vision participe n'est stocké ou utilisé pour la formation - dès que vous mettez fin à votre session, les données sont définitivement supprimées.
L'expérience ne fonctionnera pas sur tous les sites web, car nous avons pris des mesures importantes pour limiter les types de sites web avec lesquels Copilot Vision peut communiquer. Nous commençons par une liste limitée de sites web populaires pour nous assurer que l'expérience est sûre pour tout le monde.
Copilot Vision ne travaillera pas sur des contenus sensibles ou protégés par un paywall pour cette préversion. Nous l'avons créé en gardant à l'esprit les intérêts des utilisateurs et des créateurs.
Il n'y a pas de traitement spécifique du contenu d'un site web sur lequel vous naviguez, ni d'entraînement à l'IA. Copilot Vision se contente de lire et d'interpréter les images et le texte qu'il voit sur la page pour la première fois, en même temps que vous.
Avant de procéder à un lancement à grande échelle, nous continuerons à recueillir les commentaires des premiers utilisateurs de Copilot Labs, à affiner nos mesures de sécurité et à placer la protection de la vie privée et la responsabilité au centre de toutes nos activités. N'hésitez pas à nous faire part de vos commentaires !

La fonctionnalité Think Deeper et le raisonnement avancé

Comme pour Vision, la nouvelle fonction Think Deeper de Copilot vise à rendre l'assistant de Microsoft plus polyvalent.

Think Deeper permet à Copilot de résoudre des problèmes plus complexes, selon Microsoft, grâce à des « modèles de raisonnement » qui prennent plus de temps avant de fournir des réponses étape par étape. Quels modèles de raisonnement ? Microsoft est resté un peu flou, se contentant de dire que Think Deeper utilise « les derniers modèles d'OpenAI, peaufinés par Microsoft ». En lisant entre les lignes, il y a fort à parier qu'il s'agit d'une version personnalisée du modèle o1 d'OpenAI.

Cette fonctionnalité permet à l’assistant de fournir des réponses plus nuancées et réfléchies, allant au-delà des simples recherches d’informations. Par exemple, vous voulez planifier un projet complexe : Copilot peut vous aider à penser à travers les différentes étapes, suggérer des ressources et même anticiper des obstacles potentiels.

« Copilot peut désormais raisonner sur des questions plus complexes. Think Deeper prend plus de temps avant de répondre, ce qui permet à Copilot de fournir des réponses détaillées et étape par étape à des questions difficiles. Nous l'avons conçu pour répondre à toutes sortes de défis pratiques et quotidiens, comme comparer deux options complexes côte à côte. Dois-je déménager dans telle ou telle ville ? Quel type de voiture correspond le mieux à mes besoins ? Et ainsi de suite. Il s'agit d'une compétence Copilot précoce qui est encore en cours de développement. Nous l'avons donc placée dans notre laboratoire expérimental Copilot Labs afin de la tester et d'obtenir des commentaires ».

Microsoft a beaucoup parlé du potentiel de Think Deeper dans ses documents de presse. Mais en supposant que le modèle sous-jacent soit o1, il ne sera certainement pas à la hauteur dans certains domaines. Il sera intéressant de voir quels types d'améliorations Microsoft a apportés au modèle de base et dans quelle mesure Think Deeper peut communiquer à propos de ses limites.

Think Deeper est disponible pour un nombre limité d'utilisateurs de Copilot Labs en Australie, au Canada, en Nouvelle-Zélande, aux États-Unis et au Royaume-Uni.

Interaction vocale et synthèse de la parole

Copilot Voice (à ne pas confondre avec Copilot Voice de GitHub) est une nouvelle fonctionnalité de Copilot qui est généralement disponible. Lancée en anglais en Nouvelle-Zélande, au Canada, en Australie, au Royaume-Uni et aux États-Unis pour commencer, Voice ajoute quatre voix synthétiques qui vous permettent de parler à Copilot et d'entendre ses réponses à voix haute.

À l'instar du mode vocal avancé d'OpenAI pour ChatGPT, Copilot Voice peut interpréter le ton que vous employez au cours de...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Microsoft Copilot peut désormais lire ce qui est affiché sur votre écran pour vous donner des réponses contextuelles

Vous parler à voix haute et résoudre des problèmes complexes

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Microsoft Copilot peut désormais lire ce qui est affiché sur votre écran pour vous donner des réponses contextuelles Vous parler à voix haute et résoudre des problèmes complexes

Microsoft Copilot peut désormais lire ce qui est affiché sur votre écran pour vous donner des réponses contextuelles

Vous parler à voix haute et résoudre des problèmes complexes