Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d'IA de Google pour les entreprises

Avec la capacité d'analyser des flux audio en sus des vidéos

Le 9 avril 2024 à 19:17, par Patrick Ruiz

30PARTAGES

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d’IA de Google pour les entreprises
Avec la capacité d’analyser des flux audio en sus des vidéos

Gemini 1.5 Pro, le modèle d'IA générative annoncé comme étant le plus performant de Google, sort de sa phase de préversion privée et passe en préversion publique sur Vertex AI – la plateforme de développement d’IA de Google pour les entreprises. Le modèle déjà connu pour sa capacité à générer du code informatique à partir de vidéos arrive à disposition du public après une mise à jour qui le met en capacité d’analyser des flux audio. Sa disponibilité se fait dans le contexte de la multiplication des rapports selon lesquels l’intelligence artificielle menace les emplois en cols blancs dans divers secteurs dont celui du développement de logiciels.

Gemini 1.5 Pro a fait l'objet de lancement en février, rejoignant la famille des modèles d'IA générative Gemini de Google. Sa principale caractéristique est sans aucun doute la quantité de contexte qu'il peut traiter : entre 128 000 tokens et jusqu'à 1 million de tokens, où "tokens" se réfère à des bits subdivisés de données brutes.

Un million de tokens équivaut à environ 700 000 mots ou environ 30 000 lignes de code. C'est environ quatre fois la quantité de données que le modèle phare d'Anthropic, Claude 3, peut prendre en entrée et environ huit fois plus que le contexte maximal du GPT-4 Turbo d'OpenAI.

Le contexte d'un modèle, ou fenêtre contextuelle, fait référence à l'ensemble initial de données (par exemple un texte) que le modèle prend en compte avant de générer un résultat (par exemple un texte supplémentaire). Une simple question - "Qui a remporté l'élection présidentielle américaine de 2020 ?" - peut servir de contexte, tout comme un scénario de film, un courriel, un essai ou un livre électronique.

Gemini 1.5 Pro étant multilingue - et multimodal dans le sens où il est capable de comprendre des images et des vidéos et, depuis peu, des flux audio en plus du texte - le modèle peut également analyser et comparer le contenu de médias tels que des émissions de télévision, des films, des émissions de radio, des enregistrements de conférences téléphoniques et bien d'autres encore dans différentes langues. Un million de jetons correspond à environ une heure de vidéo ou à environ 11 heures d'audio.

Grâce à ses capacités de traitement audio, Gemini 1.5 Pro peut également générer des transcriptions pour les clips vidéo, même si la qualité de ces transcriptions n'est pas encore au rendez-vous.

Google indique que les premiers utilisateurs de Gemini 1.5 Pro - dont United Wholesale Mortgage, TBS et Replit - exploitent la grande fenêtre contextuelle pour des tâches allant de la souscription de prêts hypothécaires à l'automatisation du marquage des métadonnées dans les archives médiatiques, en passant par la génération, l'explication et la transformation de code.

Les gains de productivité avec des outils de ce type sont néanmoins de nature à entraîner des pertes d’emplois dans la filière du développement de logiciels en dépit des tares dont ils font encore montre

En effet, si Gemini est connu pour générer du code à partir de vidéo, il faut souligner que le code produit n’est pas totalement fonctionnel, ce qui remet en avant la nécessité de vérifier les productions de l’intelligence artificielle. En d’autres termes, au stade actuel de son évolution, cette intelligence artificielle est un outil qui nécessite l’intervention d’un professionnel de la filière du développement de logiciels pour obtenir un produit fini.

Le tableau n’est pas sans faire penser au cas Air Canada en matière de mise à contribution de l’intelligence artificielle dans la filière du développement de logiciels. Le jour où la grand-mère de Jake Moffatt est décédée, ce dernier s'est à l’immédiat rendu sur le site Web d'Air Canada pour réserver un vol de Vancouver à Toronto. Ne sachant pas comment fonctionnent les tarifs d'Air Canada pour les personnes en deuil, Moffatt a demandé au chatbot d'Air Canada de lui expliquer. Ce dernier a fourni des informations inexactes, encourageant Jake Moffatt à réserver un vol à l’immédiat, puis à demander un remboursement dans les 90 jours. Une recommandation en contradiction avec la politique de la compagnie aérienne qui stipule qu’elle ne procède pas à des remboursements une fois que la réservation est effectuée.

Jake Moffatt a donc porté plainte en joignant une capture d’écran de sa conversation avec le chatbot : « Si vous devez voyager à l’immédiat ou si vous avez déjà voyagé et que vous souhaitez soumettre votre billet pour bénéficier d'un tarif réduit pour les personnes en deuil, veuillez le faire dans les 90 jours suivant la date d'émission de votre billet en remplissant notre formulaire de demande de remboursement de billet. »

Le tribunal a au final tranché que M. Moffatt a droit à un remboursement partiel de 650,88 dollars canadiens (environ 482 USD) sur le prix initial du billet qui était de 1 640,36 CAD (environ 1 216 USD), ainsi qu'à des dommages-intérêts supplémentaires pour couvrir les intérêts sur le billet d'avion et les frais de justice de M. Moffatt.

Air Canada a décidé de se conformer à la décision et de considérer l'affaire comme close après avoir refusé d’endosser la responsabilité de l’erreur commise par le chatbot intégré à son site web. La compagnie aérienne a ensuite procédé à la désactivation de ce dernier.

Une étude publiée au premier trimestre de l’année précédente par des économistes du MIT rapporte que l'IA générative, notamment le chatbot d'IA ChatGPT d'OpenAI, augmente la productivité de 40 % et la qualité de 20 %. C’est la raison pour laquelle des employeurs s’appuie pour licencier du personnel. L'étude des chercheurs du MIT met justement en garde les employeurs contre l'utilisation de l'IA générative pour augmenter les licenciements. De nombreux employés ont déjà signalé avoir été remplacés par une IA. Par le passé, une expérience menée par un chercheur de Microsoft a montré que des programmeurs utilisant GitHub Copilot, un outil d'assistance basé sur ChatGPT, ont réduit de plus de moitié le temps nécessaire à la programmation d'un serveur Web.

Et vous ?

Quel impact voyez-vous des outils comme Gemini avoir sur la filière du développement de logiciels dans les années à venir ?

Les craintes en lien avec des pertes d’emploi (dans la filière du développement) causées par de tels outils sont-elles fondées ?

Voir aussi :

ChatGPT rédige désormais les dissertations des étudiants et l'enseignement supérieur est confronté à un grave problème, la détection des contenus générés par l'IA semble de plus en plus difficile

51 % des enseignants déclarent utiliser ChatGPT dans le cadre de leur travail, de même que 33 % des élèves, et affirment que l'outil a eu un impact positif sur leur enseignement et leur apprentissage

Un professeur surprend un étudiant en train de tricher avec le chatbot d'IA ChatGPT : « je suis terrorisé », il estime que ces outils pourraient aggraver la tricherie dans l'enseignement supérieur

Vous avez lu gratuitement 6 187 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d'IA de Google pour les entreprises

Avec la capacité d'analyser des flux audio en sus des vidéos

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d'IA de Google pour les entreprises Avec la capacité d'analyser des flux audio en sus des vidéos

Gemini 1.5 Pro est disponible en préversion publique sur Vertex AI, la plateforme de développement d'IA de Google pour les entreprises

Avec la capacité d'analyser des flux audio en sus des vidéos