IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Les modèles linguistiques d'IA peuvent surpasser PNG et FLAC en matière de compression sans perte,
Selon une étude de Google DeepMind

Le , par Bruno

185PARTAGES

7  0 
Selon une étude de Google DeepMind, les modèles linguistiques d’IA peuvent surpasser les formats PNG et FLAC en matière de compression sans perte. Une compression efficace consiste à trouver des modèles pour réduire la taille des données sans perdre d’informations. Lorsqu’un algorithme ou un modèle peut deviner avec précision l’élément de données suivant dans une séquence, il montre qu’il est capable de repérer ces modèles. Cela permet d’établir un lien entre l’idée de faire de bonnes suppositions - ce que les grands modèles de langage comme GPT-4 font très bien - et la réalisation d’une bonne compression.

Le Portable Network Graphics (PNG) est un format d’images numériques ouvert qui a été créé pour remplacer le format GIF, qui était propriétaire à l’époque et dont la compression était soumise à un brevet. Le PNG est un format sans perte spécialement adapté pour publier des images simples contenant des aplats de couleurs. Le Free Lossless Audio Codec (FLAC) est un codec libre de compression audio sans perte développé par Xiph. Il permet d’obtenir un taux de compression d’environ 50 % par rapport aux données PCM non compressées. Sa nature sans perte le rend adapté à l’archivage de données audio.


Il est établi depuis longtemps que les modèles prédictifs peuvent être transformés en compresseurs sans perte et vice versa. D'ailleurs, ces dernières années, la communauté de l'apprentissage automatique s'est concentrée sur la formation de modèles (linguistiques) autosupervisés de plus en plus vastes et puissants. Étant donné que ces grands modèles linguistiques présentent des capacités prédictives impressionnantes, ils sont bien placés pour être des compresseurs puissants.

Les chercheurs préconisent de considérer le problème de la prédiction sous l'angle de la compression et évaluent les capacités de compression des grands modèles (de base). Ils montrent que les grands modèles linguistiques sont de puissants prédicteurs à usage général et que le point de vue de la compression offre de nouvelles perspectives en ce qui concerne les lois d'échelle, la tokenisation et l'apprentissage en contexte.

Chinchilla : une famille de grands modèles de langage développée par DeepMind

Chinchilla a été présentée en mars 2022 par l’équipe DeepMind. Elle est nommée "chinchilla" car il s'agit d'une évolution par rapport à une famille de modèles précédente nommée "Gopher". Les deux familles de modèles ont été formées afin d'étudier les lois de mise à l'échelle des grands modèles de langage. Il prétend être plus performant que le GPT-3. Il simplifie considérablement l'utilisation en aval car il nécessite beaucoup moins de puissance informatique pour l'inférence et le réglage fin.

Sur la base de la formation de modèles linguistiques précédemment utilisés, il a été déterminé que si l'on double la taille du modèle, il faut également doubler le nombre de jetons de formation. Cette hypothèse a été utilisée pour former Chinchilla AI par DeepMind. Similaire à Gopher en termes de coût, Chinchilla a 70B paramètres et quatre fois plus de données.

Chinchilla a une précision moyenne de 67,5 % sur le benchmark MMLU (Measuring Massive Multitask Language Understanding), soit 7 % de plus que les performances de Gopher. Chinchilla contribue au développement d'un paradigme de formation efficace pour les modèles linguistiques autorégressifs de grande taille avec des ressources de calcul limitées. L'équipe de Chinchilla recommande que le nombre de jetons d'entraînement soit doublé pour chaque doublement de la taille du modèle, ce qui signifie que l'utilisation d'ensembles de données d'entraînement plus importants et de meilleure qualité peut conduire à de meilleurs résultats sur les tâches en aval.

Chinchilla 70B, bien qu'entraîné principalement sur du texte, compresse les patchs ImageNet à 43,4 % et les échantillons LibriSpeech à 16,4 % de leur taille brute, battant les compresseurs spécifiques au domaine comme PNG (58,5 %) ou FLAC (30,3 %), respectivement. Enfin, ils montrent que l'équivalence prédiction-compression permet d'utiliser n'importe quel compresseur (comme gzip) pour construire un modèle génératif conditionnel.

ImageNet : l'ensemble de données ImageNet contient 14197122 images annotées de la hiérarchie WordNeth. Depuis 2010, ces données sont utilisées dans le cadre du défi de reconnaissance visuelle à grande échelle d'ImageNet (ILSVRC), une référence en matière de classification d'images et de détection d'objets. Des taches contiguës de taille 32×64 de toutes les images sont extrait, aplatis, les convertis en échelle de gris (de sorte que chaque octet représente exactement un pixel) pour obtenir des échantillons de 2048 octets. 488821 de ces taches sont concatés, en suivant l'ordre des données originales, pour créer un ensemble de données de 1 Go.

LibriSpeech : est un corpus d'environ 1000 heures de parole en anglais à 16kHz. Les donnéess ont dérivées des livres audio du projet LibriVox et ont été soigneusement segmentées et alignées. Les chercheurs ont découpé les échantillons en lots de 2048 octets et rassemblé 488821 de ces morceaux dans un ensemble de données de 1 Go.

Comparaison des taux de compression


On y voit à la fois le taux de compression normal, qui ne tient pas compte de la taille du modèle (en octets), et le taux ajusté, qui en tient compte. La taille du programme Python pour les compresseurs classiques est très petite (quelques kilo-octets au maximum) et n'affecte donc que très peu le taux de compression. Les résultats de l'étude suggèrent que même si Chinchilla 70B a été formé principalement pour traiter du texte, il est étonnamment efficace pour compresser d'autres types de données, souvent mieux que les algorithmes spécifiquement conçus pour ces tâches. Cela permet d'envisager les modèles d'apprentissage automatique non seulement comme des outils de prédiction et de rédaction de textes, mais aussi comme des moyens...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de foxzoolm
Membre habitué https://www.developpez.com
Le 29/09/2023 à 18:59
gzip est un algo de flux... je ne vois pas le rapport avec un modele statistique sur l'ensemble des données...
d'autant que gzip est en quelque sort "agnostique"... (il ne sait pas ce qu'il compresse)

ca fait longtemps qu'on sait qie gzip n'est pas efficace sur la compression de texte (parce que pour gzip ce n'est pas du texte)...

il ne tiens pas compte de la logique de la langue (par exemple)

donc oui un modele de langage sera plus efficace...

what's news ?
0  2