Perplexity annonce l'introduction de l'inférence hybride agentique pour Perplexity Computer : la capacité de répartir les tâches entre des modèles locaux et des modèles cloud, pour réduire les coûts

Le 4 juin 2026 à 06:41, par Jade Emy

158PARTAGES

Perplexity annonce l'introduction de l'inférence hybride agentique pour Perplexity Computer : la capacité de répartir les tâches entre des modèles locaux et des modèles dans le cloud, pour réduire les coûts

Perplexity a annoncé une nouvelle fonctionnalité appelée « inférence hybride agentique » pour sa plateforme Personal Computer. Le nouveau système « inférence hybride agentique » de Perplexity est conçu pour répartir automatiquement les charges de travail entre les modèles fonctionnant sur l'appareil de l'utilisateur et des modèles plus puissants dans le cloud. Selon l'entreprise, cette approche permet de conserver les données sensibles localement tout en réservant les ressources de cloud computing aux tâches nécessitant une plus grande puissance de traitement.

À mesure que les modèles d'IA gagnent en puissance, les entreprises cherchent des moyens de trouver un équilibre entre performances, confidentialité et coût croissant du calcul. Si les modèles basés sur le cloud offrent une plus grande puissance de traitement, ils nécessitent l'envoi de données vers des serveurs distants. L'IA sur appareil permet de conserver les informations localement, mais est souvent limitée par les contraintes matérielles. Déterminer quelles charges de travail doivent être exécutées localement et lesquelles doivent être traitées dans le cloud est devenu ce que le secteur qualifie de plus en plus de « problème d'orchestration ».

Pour y remédier, Perplexity a annoncé une nouvelle fonctionnalité appelée « inférence hybride agentique » pour sa plateforme Personal Computer. Perplexity AI, Inc., ou simplement Perplexity, est une société américaine privée de logiciels proposant un moteur de recherche Web qui traite les requêtes des utilisateurs et synthétise les réponses. Les produits Perplexity utilisent de grands modèles de langage et intègrent des capacités de recherche Web en temps réel, fournissant des réponses basées sur le contenu Internet actuel, en citant les sources utilisées. Son moteur de recherche en temps réel s'appelle Sonar et est basé sur le modèle Llama de Meta. Une version publique gratuite est disponible, tandis qu'un abonnement Pro payant offre l'accès à des modèles linguistiques plus avancés et à des fonctionnalités supplémentaires.

Fin février 2026, Perplexity a lancé Perplexity Computer, un nouveau système conçu pour aller au-delà des chatbots IA traditionnels et des agents basés sur des tâches. Au lieu de se contenter de répondre à des questions ou d'effectuer des actions ponctuelles, Perplexity Computer est conçu pour gérer des flux de travail complets, du début à la fin. « Aujourd'hui, nous présentons Perplexity Computer. Perplexity Computer unifie chaque capacité actuelle de l'IA dans un système unique. Computer est un travailleur numérique polyvalent qui utilise les mêmes interfaces que vous. C'est la prochaine évolution de l'IA. Les interfaces de chat apportent des réponses, tandis que les agents peuvent effectuer des tâches. Perplexity Computer est un système qui crée et exécute des flux de travail entiers, capable de fonctionner pendant des heures ou même des mois », a déclaré Perplexity sur son site.

Le nouveau système « inférence hybride agentique » de Perplexity est conçu pour répartir automatiquement les charges de travail entre les modèles fonctionnant sur l'appareil de l'utilisateur et des modèles plus puissants dans le cloud. Selon l'entreprise, cette approche permet de conserver les données sensibles localement tout en réservant les ressources de cloud computing aux tâches nécessitant une plus grande puissance de traitement.

Nous annonçons aujourd'hui l'arrivée de l'inférence hybride agentique sur Perplexity Computer.

Computer peut répartir les tâches entre un modèle local fonctionnant sur votre appareil et des modèles Frontier dans le cloud. Cela permet de conserver les données privées sur votre appareil et d'optimiser l'efficacité des jetons.

À venir prochainement.

Today we're announcing that hybrid agentic inference is coming to Perplexity Computer.

Computer can split tasks between a local model running on your machine and frontier models in the cloud. This keeps private data on your device and maximizes token efficiency.

Coming soon. pic.twitter.com/6t3PrmI1FX
— Perplexity (@perplexity_ai) June 2, 2026

L'inférence hybride agentique pour résoudre le problème d'orchestration

Un problème d'orchestration consiste à déterminer quel modèle d'IA doit effectuer quelle partie d'une tâche, où il doit s'exécuter et à quel moment. Dans le cas de Perplexity, imaginez que vous demandiez à une IA d'analyser votre relevé bancaire et de créer un résumé financier. Certaines parties de la tâche impliquent des données personnelles sensibles qui devraient idéalement rester sur votre ordinateur portable, tandis que d'autres parties peuvent nécessiter la puissance de raisonnement d'un modèle d'IA plus grand basé sur le cloud. Le problème d'orchestration consiste à déterminer comment répartir efficacement le travail entre les modèles locaux et ceux du cloud.

Le système d’inférence hybride agentique de Perplexity est conçu pour déterminer automatiquement où les tâches d’IA doivent être traitées. Un modèle compact fonctionnant sur l’appareil de l’utilisateur gère les informations sensibles et décide si certaines données doivent rester locales, tandis que les tâches plus exigeantes peuvent être acheminées vers de puissants modèles d’IA dans le cloud.

La société a indiqué que cette approche est particulièrement utile pour les tâches impliquant des informations personnelles telles que les dossiers financiers, les données de santé et les documents privés. Plutôt que d'obliger les utilisateurs à choisir manuellement entre le traitement local et le traitement dans le cloud, le système prend ces décisions automatiquement pour chaque requête.

Perplexity a dévoilé cette technologie en collaboration avec Intel et a déclaré que le système était conçu pour fonctionner sur plusieurs plateformes matérielles. La société a également mis en avant la prise en charge de la plateforme RTX Spark de NVIDIA, ajoutant que sa couche d'orchestration est indépendante du modèle et peut fonctionner sur différentes puces d'IA et dans différents environnements informatiques locaux.

Miser sur l'IA locale : une tendance du secteur

Cette annonce intervient alors que les entreprises d'IA explorent de plus en plus l'exécution de modèles directement sur les appareils grand public. Les améliorations apportées aux processeurs, aux puces graphiques et au matériel dédié à l'IA ont permis d'effectuer un nombre croissant de tâches d'IA localement plutôt que de dépendre entièrement de l'infrastructure cloud. Perplexity fait valoir que le fait de conserver davantage de charges de travail sur l'appareil peut améliorer la confidentialité et réduire la puissance de calcul requise des serveurs distants. L'entreprise a déclaré que son approche hybride permet aux modèles locaux et cloud de fonctionner ensemble, chacun traitant les tâches les mieux adaptées à ses capacités.

L'entreprise a déclaré : « Les gens préfèrent disposer d'un centre de données dans leur ordinateur portable plutôt que d'en construire un qu'ils ne contrôlent pas. » Perplexity fait valoir que les PC modernes deviennent suffisamment puissants pour gérer localement une part croissante des charges de travail liées à l’IA. Cela donne aux utilisateurs un meilleur contrôle sur leurs données, réduit la nécessité d’envoyer des informations sensibles vers des serveurs distants et diminue la dépendance vis-à-vis des grands centres de données centralisés exploités par les entreprises technologiques.

Cette initiative reflète une tendance plus large du secteur vers des PC et des appareils compatibles avec l'IA. À mesure que de plus en plus de matériel acquiert la capacité d'exécuter des modèles d'IA localement, les entreprises cherchent des moyens de combiner de manière transparente le traitement sur appareil avec les services d'IA basés sur le cloud. En outre, l'IA locale permettrait de réduire les dépenses pour les entreprises.

L'IA, longtemps présentée comme un outil censé améliorer la productivité tout en maîtrisant les coûts, devient un fardeau financier pour certaines organisations. Les dépenses des entreprises en matière d'IA montent en effet en flèche, certaines d'entre elles payant désormais davantage pour la puissance de calcul que pour la main-d'œuvre humaine. Le cabinet d'études Gartner estime que les dépenses mondiales en technologies de l'information atteindront 6 310 milliards de dollars en 2026, soit une hausse de 13,5 % par rapport à l'année précédente. Alors que les coûts augmentent et que les retours sur investissement restent incertains, les dirigeants commencent à se demander si l'essor de l'IA est durable et si cette technologie est vraiment moins coûteuse que la main-d'œuvre humaine.

Voici l'annonce de Perplexity :

Le centre de données s’installe sur votre machine

Le bon objectif pour un système d’IA est de fournir, pour chaque utilisateur, la plus grande valeur en tokens par watt. Cela paraît simple. Ce ne l’est pas, car trois facteurs s’opposent.

La précision exige les modèles les plus performants, dont l’exécution est coûteuse. La confidentialité exige que certaines tâches ne quittent jamais votre machine. Le coût et l’énergie exigent que vous ne consacriez pas la capacité de calcul d’un modèle de pointe à une tâche qu’un modèle plus petit peut traiter. Vous ne pouvez pas maximiser l’un sans respecter les autres.

Trouver l’équilibre entre les trois est un problème d’orchestration. Et l’orchestration est précisément ce que Perplexity a toujours fait.

Aujourd’hui, nous avons annoncé la prochaine étape pour Personal Computer : le premier orchestrateur d’inférence hybride local-serveur. Il détermine quelles tâches doivent s’exécuter sur votre appareil et lesquelles doivent être confiées à des agents dans le cloud, puis achemine automatiquement chaque partie d’une tâche vers le bon endroit.

Des modèles au calcul

Perplexity a commencé par orchestrer des outils et des sources afin de produire des réponses exactes et sourcées. Computer a étendu cela à une infrastructure pour des centaines d’agents, déployés sur plus de vingt modèles de pointe, en choisissant le bon pour chaque tâche. Nous pouvons désormais étendre la même idée au calcul lui-même : quel modèle, où il s’exécute et pourquoi.

L’inférence agentique hybride est destinée aux tâches qui incluent des données sensibles mais nécessitent une IA puissante. Des éléments tels que des dossiers financiers, des informations de santé et des fichiers personnels. Le modèle compact s’exécute localement sur votre appareil afin de déterminer quand les données sensibles doivent elles aussi être conservées localement.

Pendant ce temps, le travail qui requiert toute la capacité d’un modèle de pointe s’exécute sur le serveur. La plupart des tâches réelles sont un mélange des deux, donc Personal Computer les divise et coordonne les différentes parties. Contrairement aux outils qui vous demandent de choisir d’emblée entre local et cloud, cela se fait tout seul, tâche par tâche.

L’appareil est le centre de données

Pendant des années, un silicium plus performant a surtout signifié des applications plus rapides et une meilleure autonomie. Cela change lorsque la puce peut exécuter une véritable inférence. Plus le matériel local est performant, plus l’orchestrateur peut conserver de travail sur votre machine, et plus il peut réserver le serveur aux tâches qui l’exigent réellement.

Nous avons dévoilé cela avec Intel, et la même infrastructure indépendante des modèles fonctionne sur d’autres puces locales, y compris la RTX Spark de NVIDIA. La course au calcul local est lancée. À mesure que les puces progressent, seul Perplexity dispose de l’infrastructure agentique et de l’ingénierie d’inférence appliquée nécessaires à une orchestration véritablement fluide.

Cela change aussi les calculs pour tous ceux qui observent la pénurie de capacité de calcul. Lorsque les tâches sensibles et les tâches courantes se déplacent sur les appareils que les gens possèdent déjà, il n’est plus nécessaire de construire autant d’infrastructure centralisée pour les servir. Cela change aussi la manière dont se présente la souveraineté : des données importantes peuvent rester dans leur propre juridiction sans qu’un pays ait à mettre en place un centre de données pour les y maintenir.

Les gens préféreraient posséder un centre de données dans leur ordinateur portable plutôt que de s’appuyer sur un centre qu’ils ne contrôlent pas.

La bonne architecture pour l’efficacité

Si cette architecture convient à Perplexity, ce n’est pas un hasard. Notre activité a toujours consisté à fournir une IA précise, et non à maximiser le nombre de tokens que nous vendons. C’est la bonne incitation pour optimiser la valeur par watt : nous gagnons lorsque la réponse est juste et que le travail est accompli, non lorsqu’il consomme davantage de capacité de calcul.

L’IA hybride est une ambition du secteur depuis longtemps. Personal Computer avec inférence locale, disponible en juillet, est le premier produit à la concrétiser, et le premier à traiter le calcul comme un élément supplémentaire à orchestrer intelligemment entre votre machine et le cloud.

Source : Annonce de Perplexity

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Perplexity lance « Personal Computer », un système capable de transformer votre Mac mini en agent IA qui exécute des tâches en arrière-plan, mais il présente des risques pour la sécurité à l'instar d'OpenClaw

L'application Google AI Edge vous permet d'utiliser l'IA Gemma 4 en local sur des appareils iPhone et Android sans connexion Internet, et propose des outils d'IA tels que le chat et l'analyse d'images

Microsoft snobe Windows pour développer un système d'exploitation sur Android : le projet Solara est conçu pour des agents IA plutôt que pour des applications traditionnelles

Vous avez lu gratuitement 5 122 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Perplexity annonce l'introduction de l'inférence hybride agentique pour Perplexity Computer : la capacité de répartir les tâches entre des modèles locaux et des modèles cloud, pour réduire les coûts

Identifiant
Mot de passe

Mot de passe oublié ?