IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles linguistiques d'IA peuvent surpasser PNG et FLAC en matière de compression sans perte,
Selon une étude de Google DeepMind

Le , par Bruno

5PARTAGES

7  0 
Selon une étude de Google DeepMind, les modèles linguistiques d’IA peuvent surpasser les formats PNG et FLAC en matière de compression sans perte. Une compression efficace consiste à trouver des modèles pour réduire la taille des données sans perdre d’informations. Lorsqu’un algorithme ou un modèle peut deviner avec précision l’élément de données suivant dans une séquence, il montre qu’il est capable de repérer ces modèles. Cela permet d’établir un lien entre l’idée de faire de bonnes suppositions - ce que les grands modèles de langage comme GPT-4 font très bien - et la réalisation d’une bonne compression.

Le Portable Network Graphics (PNG) est un format d’images numériques ouvert qui a été créé pour remplacer le format GIF, qui était propriétaire à l’époque et dont la compression était soumise à un brevet. Le PNG est un format sans perte spécialement adapté pour publier des images simples contenant des aplats de couleurs. Le Free Lossless Audio Codec (FLAC) est un codec libre de compression audio sans perte développé par Xiph. Il permet d’obtenir un taux de compression d’environ 50 % par rapport aux données PCM non compressées. Sa nature sans perte le rend adapté à l’archivage de données audio.


Il est établi depuis longtemps que les modèles prédictifs peuvent être transformés en compresseurs sans perte et vice versa. D'ailleurs, ces dernières années, la communauté de l'apprentissage automatique s'est concentrée sur la formation de modèles (linguistiques) autosupervisés de plus en plus vastes et puissants. Étant donné que ces grands modèles linguistiques présentent des capacités prédictives impressionnantes, ils sont bien placés pour être des compresseurs puissants.

Les chercheurs préconisent de considérer le problème de la prédiction sous l'angle de la compression et évaluent les capacités de compression des grands modèles (de base). Ils montrent que les grands modèles linguistiques sont de puissants prédicteurs à usage général et que le point de vue de la compression offre de nouvelles perspectives en ce qui concerne les lois d'échelle, la tokenisation et l'apprentissage en contexte.

Chinchilla : une famille de grands modèles de langage développée par DeepMind

Chinchilla a été présentée en mars 2022 par l’équipe DeepMind. Elle est nommée "chinchilla" car il s'agit d'une évolution par rapport à une famille de modèles précédente nommée "Gopher". Les deux familles de modèles ont été formées afin d'étudier les lois de mise à l'échelle des grands modèles de langage. Il prétend être plus performant que le GPT-3. Il simplifie considérablement l'utilisation en aval car il nécessite beaucoup moins de puissance informatique pour l'inférence et le réglage fin.

Sur la base de la formation de modèles linguistiques précédemment utilisés, il a été déterminé que si l'on double la taille du modèle, il faut également doubler le nombre de jetons de formation. Cette hypothèse a été utilisée pour former Chinchilla AI par DeepMind. Similaire à Gopher en termes de coût, Chinchilla a 70B paramètres et quatre fois plus de données.

Chinchilla a une précision moyenne de 67,5 % sur le benchmark MMLU (Measuring Massive Multitask Language Understanding), soit 7 % de plus que les performances de Gopher. Chinchilla contribue au développement d'un paradigme de formation efficace pour les modèles linguistiques autorégressifs de grande taille avec des ressources de calcul limitées. L'équipe de Chinchilla recommande que le nombre de jetons d'entraînement soit doublé pour chaque doublement de la taille du modèle, ce qui signifie que l'utilisation d'ensembles de données d'entraînement plus importants et de meilleure qualité peut conduire à de meilleurs résultats sur les tâches en aval.

Chinchilla 70B, bien qu'entraîné principalement sur du texte, compresse les patchs ImageNet à 43,4 % et les échantillons LibriSpeech à 16,4 % de leur taille brute, battant les compresseurs spécifiques au domaine comme PNG (58,5 %) ou FLAC (30,3 %), respectivement. Enfin, ils montrent que l'équivalence prédiction-compression permet d'utiliser n'importe quel compresseur (comme gzip) pour construire un modèle génératif conditionnel.

ImageNet : l'ensemble de données ImageNet contient 14197122 images annotées de la hiérarchie WordNeth. Depuis 2010, ces données sont utilisées dans le cadre du défi de reconnaissance visuelle à grande échelle d'ImageNet (ILSVRC), une référence en matière de classification d'images et de détection d'objets. Des taches contiguës de taille 32×64 de toutes les images sont extrait, aplatis, les convertis en échelle de gris (de sorte que chaque octet représente exactement un pixel) pour obtenir des échantillons de 2048 octets. 488821 de ces taches sont concatés, en suivant l'ordre des données originales, pour créer un ensemble de données de 1 Go.

LibriSpeech : est un corpus d'environ 1000 heures de parole en anglais à 16kHz. Les donnéess ont dérivées des livres audio du projet LibriVox et ont été soigneusement segmentées et alignées. Les chercheurs ont découpé les échantillons en lots de 2048 octets et rassemblé 488821 de ces morceaux dans un ensemble de données de 1 Go.

Comparaison des taux de compression


On y voit à la fois le taux de compression normal, qui ne tient pas compte de la taille du modèle (en octets), et le taux ajusté, qui en tient compte. La taille du programme Python pour les compresseurs classiques est très petite (quelques kilo-octets au maximum) et n'affecte donc que très peu le taux de compression. Les résultats de l'étude suggèrent que même si Chinchilla 70B a été formé principalement pour traiter du texte, il est étonnamment efficace pour compresser d'autres types de données, souvent mieux que les algorithmes spécifiquement conçus pour ces tâches. Cela permet d'envisager les modèles d'apprentissage automatique non seulement comme des outils de prédiction et de rédaction de textes, mais aussi comme des moyens efficaces de réduire la taille de divers types de données.

La compression sans perte signifie qu'aucune donnée n'est perdue au cours du processus de compression. Elle s'oppose à une technique de compression avec perte comme le JPEG, qui perd certaines données et en reconstruit d'autres avec des approximations au cours du processus de décodage afin de réduire considérablement la taille des fichiers.

JPEG est l’acronyme de Joint Photographic Experts Group. Il s'agit d'un comité d’experts qui édicte des normes de compression pour l’image fixe. Le JPEG est une norme qui définit le format d'enregistrement et l'algorithme de décodage pour une représentation numérique compressée d'une image fixe.

Compression de données : une forme d’intelligence générale ?

Au cours des deux dernières décennies, certains informaticiens ont proposé que la capacité à compresser efficacement des données s'apparente à une forme d'intelligence générale. Cette idée est ancrée dans la notion que la compréhension du monde implique souvent d'identifier des modèles et de donner un sens à la complexité, ce qui, comme mentionné ci-dessus, est similaire à ce que fait une bonne compression de données.

En réduisant un grand ensemble de données en une forme plus petite et plus facile à gérer tout en conservant ses caractéristiques essentielles, un algorithme de compression démontre une forme de compréhension ou de représentation de ces données, affirment les partisans de cette idée.

Le prix Hutter est un exemple qui met en lumière l'idée que la compression est une forme d'intelligence. Nommé d'après Marcus Hutter, chercheur dans le domaine de l'IA et l'un des auteurs de l'article de DeepMind, le prix est décerné à toute personne capable de compresser le plus efficacement possible un ensemble fixe de textes en anglais. L'idée sous-jacente est qu'une compression de texte très efficace nécessiterait de comprendre les schémas sémantiques et syntaxiques du langage, de la même manière qu'un être humain le comprend.

En théorie, si un programme peut compresser ces données de manière extrêmement efficace, cela pourrait être le signe d'une forme d'intelligence générale - ou du moins d'un pas dans cette direction. Bien que tous les acteurs du domaine ne soient pas d'accord pour dire que gagner le prix Hutter serait le signe d'une intelligence générale, le concours met en évidence le chevauchement entre les défis de la compression des données et les objectifs de création de systèmes plus intelligents.

Dans cette optique, les chercheurs de DeepMind affirment que la relation entre la prédiction et la compression n'est pas à sens unique. Ils affirment que si vous disposez d'un bon algorithme de compression tel que Gzip, vous pouvez le retourner et l'utiliser pour générer de nouvelles données originales sur la base de ce qu'il a appris au cours du processus de compression.

Expérience de génération de données : comparaison entre Gzip et Chinchilla

Les chercheurs ont réalisé une expérience pour générer de nouvelles données dans différents formats (texte, image et audio) en demandant à Gzip et à Chinchilla de prédire ce qui vient ensuite dans une séquence de données après avoir conditionné un échantillon.

Naturellement, Gzip ne s'est pas très bien débrouillé, produisant des résultats complètement absurdes. Cela montre que si Gzip peut générer des données, celles-ci ne sont pas forcément très utiles, si ce n'est à titre de curiosité expérimentale. D'un autre côté, Chinchilla, qui a été conçu pour le traitement du langage, a, comme on pouvait s'y attendre, obtenu de bien meilleurs résultats dans la tâche de génération.

Les compresseurs génériques ayant un faible biais intrinsèque, l'échantillonnage des données sans conditionnement ne donne pas de résultats intéressants car il semble aléatoire. Les chercheurs ont donc conditionné les compresseurs sur une partie d'une séquence existante (1948 octets pour Wik9, la moitié de l'échantillon pour ImageNet et LibriSpeech) et généré les octets restants à l'aide du modèle de génération basé sur la compression. Ils ont comparé les performances de génération de Gzip et de Chinchilla70B pour toutes les trois modalités de données pour le texte, l'image et la vidéo.

En général, les modèles génératifs peuvent être évalués de l'une des manières suivantes : échantillonnage de l'octet suivant &#120588; (&#119909;&#119894; |&#119909;<&#119894 (i) en utilisant le renforcement de formateurs, c'est-à-dire en le conditionnant à la séquence complète, Ce dernier induit un décalage de distribution et, par conséquent, des effets secondaires souhaités, mais il est standard et choisis de visualiser.


Génération basée sur la compression pour les données textuelles. Gzip et Chinchilla sont conditionnés sur un texte de contexte de taille 1948 octets (de WIK9) et échantillonnés 100 octets (&#119873;tokens) de manière autorégressive. Comme Chinchilla utilise un langage, les séquences échantillonnées contiendront des &#119873;tokens, qui ne sont pas nécessairement décodés en 100 octets.

Le codage arithmétique transforme un modèle de prédiction en un compresseur et, inversement, un compresseur peut être transformé en un prédicteur en utilisant les longueurs de codage pour construire des distributions de probabilité selon le principe de l'entropie de Shannon.

Nouvelles perspectives pour la compression sans perte

Les chercheurs de Google DeepMind ont évalué de grands modèles entraînés utilisés comme compresseurs par rapport à divers compresseurs standard, et ils ont montré qu'ils sont compétitifs non seulement pour le contexte, mais aussi pour les modalités sur lesquelles ils n'ont jamais été entraînés (images, données audio).

Ils ont également montré que le point de vue de la compression n'offre pas de nouvelles perspectives sur les lois de mise à l'échelle puisqu'il prend en compte la taille du modèle, à l'exception de l'objectif de perte de logarithme, qui est la norme dans la recherche actuelle sur la modélisation linguistique.

L’étude de Google DeepMind suggère que les modèles linguistiques d’IA peuvent surpasser les formats PNG et FLAC en matière de compression sans perte. Une compression efficace consiste à trouver des modèles pour réduire la taille des données sans perdre d’informations. Lorsqu’un algorithme ou un modèle peut deviner avec précision l’élément de données suivant dans une séquence, il montre qu’il est capable de repérer ces modèles. Cela permet d’établir un lien entre l’idée de faire de bonnes suppositions - ce que les grands modèles de langage comme GPT-4 font très bien - et la réalisation d’une bonne compression.

Cependant, il est important de noter que le point de vue de la compression n’offre pas de nouvelles perspectives sur les lois de mise à l’échelle, car il prend en compte la taille du modèle. L’objectif de perte de logarithme est la norme dans la recherche actuelle sur la modélisation linguistique. Il est nécessaire de poursuivre les recherches pour mieux comprendre les lois de mise à l’échelle et les perspectives offertes par la compression.

Source : Google DeepMind

Et vous ?

Les conclusions des chercheurs de Google DeepMind sont-elles pertinentes ?

Partagez-vous l'idée selon laquelle les modèles linguistiques d’IA peuvent surpasser les formats PNG et FLAC en matière de compression sans perte ?

Quelles sont selon vous les limites de cette étude en termes de types de données et de modèles utilisés ?

Quels sont les avantages et les inconvénients de la compression sans perte par rapport à la compression avec perte ?

Voir aussi :

Mustafa Suleyman, cofondateur de DeepMind, estime que l'impact le plus important de l'IA est sous-estimé : « elle privera les élites de leur pouvoir », mais cette déclaration est controversée

DeepMind, la filiale de Google spécialisée dans l'IA, annonce qu'elle lancera bientôt un concurrent de ChatGPT, et affirme que son système est plus avancé et réduit le risque de réponses toxiques

Des algorithmes de tri qui pourraient révolutionner les fondements de l'informatique sont découverts, par les chercheurs de Deepmind et Google

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de foxzoolm
Membre régulier https://www.developpez.com
Le 29/09/2023 à 18:59
gzip est un algo de flux... je ne vois pas le rapport avec un modele statistique sur l'ensemble des données...
d'autant que gzip est en quelque sort "agnostique"... (il ne sait pas ce qu'il compresse)

ca fait longtemps qu'on sait qie gzip n'est pas efficace sur la compression de texte (parce que pour gzip ce n'est pas du texte)...

il ne tiens pas compte de la logique de la langue (par exemple)

donc oui un modele de langage sera plus efficace...

what's news ?
0  2