Lecture de l’écran et analyse contextuelle avec Copilot Vision

Les sessions de Copilot Vision sont entièrement facultatives et éphémères. Aucun des contenus auxquels Copilot Vision participe n'est stocké ou utilisé pour la formation - dès que vous mettez fin à votre session, les données sont définitivement supprimées.

L'expérience ne fonctionnera pas sur tous les sites web, car nous avons pris des mesures importantes pour limiter les types de sites web avec lesquels Copilot Vision peut communiquer. Nous commençons par une liste limitée de sites web populaires pour nous assurer que l'expérience est sûre pour tout le monde.

Copilot Vision ne travaillera pas sur des contenus sensibles ou protégés par un paywall pour cette préversion. Nous l'avons créé en gardant à l'esprit les intérêts des utilisateurs et des créateurs.

Il n'y a pas de traitement spécifique du contenu d'un site web sur lequel vous naviguez, ni d'entraînement à l'IA. Copilot Vision se contente de lire et d'interpréter les images et le texte qu'il voit sur la page pour la première fois, en même temps que vous.

Avant de procéder à un lancement à grande échelle, nous continuerons à recueillir les commentaires des premiers utilisateurs de Copilot Labs, à affiner nos mesures de sécurité et à placer la protection de la vie privée et la responsabilité au centre de toutes nos activités. N'hésitez pas à nous faire part de vos commentaires ! La sécurité est notre priorité absolue :

La fonctionnalité Think Deeper et le raisonnement avancé

Interaction vocale et synthèse de la parole

Analyse critique des nouvelles fonctionnalités de Microsoft Copilot

« Notre nouveau Copilot se veut plus intuitif et propose des réponses plus digestes, plus rapides et plus fluides. Il s'adapte désormais à vous avec un ton chaleureux et un style distinct, vous fournissant non seulement des informations mais aussi des encouragements, des commentaires et des conseils pour vous aider à relever les défis quotidiens de la vie, qu'ils soient petits ou grands. Par exemple, en plus de vous aider à planifier ce grand voyage, il peut également vous donner des conseils sur la manière de garder votre sang-froid lorsque, par exemple, le dossier de votre siège reçoit des coups de pied d'un enfant en bas âge.« Nous ajoutons des fonctionnalités avancées, telles que la voix et la vision, qui le rendent à la fois plus utile et plus naturel. Ces modalités changent la façon dont nous nous connectons à la technologie, permettant aux gens de réfléchir, d'apprendre et de travailler en toute transparence avec leurs compagnons Copilot ».Copilot Vision a une vision de ce que vous regardez sur votre PC (plus précisément, une vision des sites que vous visitez avec Microsoft Edge). Relié à Copilot Labs, un nouveau programme d'opt-in exclusif à Copilot Pro pour les fonctionnalités expérimentales de Copilot, Copilot Vision peut analyser le texte et les images des pages web et répondre à des questions (par exemple, « Quelle est la recette du plat sur cette image ? ») à leur sujet.Vision, que l'on peut obtenir en tapant « @copilot » dans la barre d'adresse d'Edge, n'est pas exactement une merveille technique. Google propose une technologie de recherche similaire sur Android et a récemment intégré des éléments de cette technologie dans Chrome.Mais Microsoft laisse entendre que Copilot Vision est plus puissant et plus respectueux de la vie privée que les précédentes fonctions d'analyse d'écran.Copilot peut « comprend la page web que vous consultez, qu'il s'agisse de texte ou d'images, et peut répondre à des questions sur son contenu, suggérer les prochaines étapes et vous aider sans perturber votre flux de travail. Imaginez que vous essayez de meubler un nouvel appartement, Copilot Vision peut vous aider à rechercher des meubles, à trouver la bonne palette de couleurs, à réfléchir aux options qui s'offrent à vous, des tapis aux jetés, et même à vous suggérer des façons d'agencer ce que vous regardez ».Autre exemple : si vous regardez une recette en ligne, Copilot peut vous fournir des informations supplémentaires sur les ingrédients ou même suggérer des variantes de la recette.Sans doute désireux d'éviter une nouvelle vague de mauvaise presse liée aux erreurs de confidentialité de l'IA, Microsoft insiste sur le fait que Copilot Vision a été conçu pour supprimer les données immédiatement après les conversations. Les données audio, les images ou le texte traités ne sont pas stockés ou utilisés pour former des modèles, affirme l'entreprise - du moins pas dans cette version de prévisualisation.Copilot Vision est également limité dans les types de sites web qu'il peut interpréter. Pour l'instant, Microsoft empêche la fonctionnalité de fonctionner sur les contenus payants et « sensibles », limitant Vision à une liste préapprouvée de propriétés web « populaires ».Qu'entend-on exactement par contenu « sensible » ? Du porno ? De la violence ? À ce stade, Microsoft n'a pas voulu le dire.Les accusations de contournement des paywalls à l'aide d'outils d'intelligence artificielle ont récemment valu à Microsoft de se retrouver dans une situation juridique délicate. Dans une action en justice en cours, le New York Times allègue que Microsoft a permis aux utilisateurs de contourner son paywall en diffusant des articles du quotidien par l'intermédiaire du chatbot Copilot sur Bing. Lorsqu'il était sollicité d'une certaine manière, Copilot (qui s'appuie sur les modèles d'OpenAI, un proche collaborateur de Microsoft) donnait des extraits textuels (ou presque) d'articles payants, selon le Times.Microsoft a déclaré que Copilot Vision, qui n'est pour l'instant disponible qu'aux États-Unis, respectera les « contrôles de l'IA lisibles par les machines » des sites, comme les règles interdisant aux robots de récupérer des données pour l'entraînement à l'IA. Mais l'entreprise n'a pas précisé quels contrôles Vision respectera, car il en existe plusieurs.De plus, de nombreux grands éditeurs ont choisi d'empêcher les outils d'IA de parcourir leurs sites web, non seulement par crainte que leurs données ne soient utilisées sans autorisation, mais aussi pour éviter que ces outils ne fassent grimper en flèche les coûts de leurs serveurs. Si la tendance actuelle se confirme, Copilot Vision pourrait ne pas fonctionner sur certains des principaux sites d'information du web.Microsoft a déclaré qu'elle s'engageait à « prendre en compte les réactions » pour apaiser les inquiétudes.Comme pour Vision, la nouvelle fonction Think Deeper de Copilot vise à rendre l'assistant de Microsoft plus polyvalent.Think Deeper permet à Copilot de résoudre des problèmes plus complexes, selon Microsoft, grâce à des « modèles de raisonnement » qui prennent plus de temps avant de fournir des réponses étape par étape. Quels modèles de raisonnement ? Microsoft est resté un peu flou, se contentant de dire que Think Deeper utilise « les derniers modèles d'OpenAI, peaufinés par Microsoft ». En lisant entre les lignes, il y a fort à parier qu'il s'agit d'une version personnalisée du modèle o1 d'OpenAI Cette fonctionnalité permet à l’assistant de fournir des réponses plus nuancées et réfléchies, allant au-delà des simples recherches d’informations. Par exemple, vous voulez planifier un projet complexe : Copilot peut vous aider à penser à travers les différentes étapes, suggérer des ressources et même anticiper des obstacles potentiels.« Copilot peut désormais raisonner sur des questions plus complexes. Think Deeper prend plus de temps avant de répondre, ce qui permet à Copilot de fournir des réponses détaillées et étape par étape à des questions difficiles. Nous l'avons conçu pour répondre à toutes sortes de défis pratiques et quotidiens, comme comparer deux options complexes côte à côte. Dois-je déménager dans telle ou telle ville ? Quel type de voiture correspond le mieux à mes besoins ? Et ainsi de suite. Il s'agit d'une compétence Copilot précoce qui est encore en cours de développement. Nous l'avons donc placée dans notre laboratoire expérimental Copilot Labs afin de la tester et d'obtenir des commentaires ».Microsoft a beaucoup parlé du potentiel de Think Deeper dans ses documents de presse. Mais en supposant que le modèle sous-jacent soit o1, il ne sera certainement pas à la hauteur dans certains domaines. Il sera intéressant de voir quels types d'améliorations Microsoft a apportés au modèle de base et dans quelle mesure Think Deeper peut communiquer à propos de ses limites.Think Deeper est disponible pour un nombre limité d'utilisateurs de Copilot Labs en Australie, au Canada, en Nouvelle-Zélande, aux États-Unis et au Royaume-Uni.Copilot Voice (à ne pas confondre avec Copilot Voice de GitHub) est une nouvelle fonctionnalité de Copilot qui est généralement disponible. Lancée en anglais en Nouvelle-Zélande, au Canada, en Australie, au Royaume-Uni et aux États-Unis pour commencer, Voice ajoute quatre voix synthétiques qui vous permettent de parler à Copilot et d'entendre ses réponses à voix haute.À l'instar du mode vocal avancé d'OpenAI pour ChatGPT, Copilot Voice peut interpréter le ton que vous employez au cours de la conversation et répondre en conséquence. Un porte-parole de Microsoft a expliqué que le mode utilise « la dernière technologie vocale avec de nouveaux modèles qui ont été affinés pour l'application Copilot ». Quelle technologie ? Quels modèles ? On ne peut pas dire que Microsoft est généreux pour ce qui concerne les détails.Une chose à savoir : Copilot Voice a une limite d'utilisation basée sur la durée. Les abonnés à Copilot Pro bénéficient de plus de minutes, mais ce nombre est « variable » en fonction de la demande, explique Microsoft.« Nous rendons plus facile que jamais la connexion avec votre compagnon grâce à Copilot Voice. C'est le moyen le plus intuitif et le plus naturel de faire du brainstorming en déplacement, de poser une question rapide ou même de se défouler à la fin d'une journée difficile. Votre compagnon vous sera personnel, avec quatre options vocales au choix ».Bien que les nouvelles capacités de Microsoft Copilot soient impressionnantes, elles soulèvent également plusieurs questions et préoccupations.L’une des principales préoccupations concerne la confidentialité des données. La capacité de Copilot à lire et analyser le contenu de votre écran pourrait potentiellement exposer des informations sensibles. Bien que Microsoft affirme que les données sont immédiatement supprimées après utilisation et ne sont pas utilisées pour entraîner les modèles, il reste une certaine méfiance quant à la manière dont ces données sont réellement gérées. Les utilisateurs doivent pouvoir faire confiance à l’outil pour protéger leurs informations personnelles et professionnelles.La fonction de réflexion profonde de Copilot, bien qu’utile, pourrait encourager une dépendance excessive à la technologie pour la prise de décision. Si les utilisateurs commencent à s’appuyer trop fortement sur Copilot pour résoudre des problèmes complexes, cela pourrait diminuer leur capacité à penser de manière critique et indépendante. Il est essentiel de trouver un équilibre entre l’utilisation de l’IA comme outil d’assistance et le maintien de nos propres compétences analytiques.L’intégration de la synthèse vocale et de l’entrée vocale est une avancée significative, mais elle n’est actuellement disponible que dans certains pays anglophones. Cette limitation géographique soulève des questions d’équité et d’accessibilité. Pour que Copilot soit véritablement inclusif, Microsoft devra étendre ces fonctionnalités à d’autres langues et régions, garantissant ainsi que tous les utilisateurs puissent bénéficier de ces innovations.Avec la capacité de Copilot à fournir des informations en temps réel, il existe un risque de surinformation. Les utilisateurs pourraient être submergés par une quantité excessive de données, rendant difficile la distinction entre les informations pertinentes et les distractions. Il est crucial que Copilot soit capable de filtrer et de prioriser les informations de manière efficace pour éviter ce problème.Source : Microsoft Comment pensez-vous que Microsoft pourrait améliorer la gestion de la confidentialité des données avec Copilot ?Voyez-vous des domaines spécifiques où la réflexion profonde de Copilot pourrait être particulièrement bénéfique ou problématique ?Quels sont les défis potentiels que vous anticipez avec l’utilisation de la synthèse vocale dans des environnements professionnels ?Comment évalueriez-vous l’équilibre entre l’assistance technologique et la préservation des compétences humaines dans la prise de décision ?Quels types de filtres ou de priorités aimeriez-vous voir intégrés dans Copilot pour éviter la surinformation ?Pensez-vous que l’extension des fonctionnalités de Copilot à d’autres langues et régions est une priorité ? Pourquoi ou pourquoi pas ?Quels autres aspects de l’interaction homme-machine aimeriez-vous voir explorés par Microsoft dans les futures mises à jour de Copilot ?