Les modèles de traitement du langage naturel (natural language processing - NLP) ont considérablement évolué au cours des dernières années, principalement en raison de la forte rivalité entre les États-Unis et la Chine. Alors que GPT-3 d'OpenAI était largement considéré comme le meilleur modèle en matière de génération du langage naturel, les chercheurs chinois ont déclaré en juin dernier avoir construit un modèle d'IA avec 100 000 milliards de paramètres, ce qui le rend 571 fois plus puissant que GPT-3. Il s'agit d'un modèle multimodal formé pour traiter à la fois le texte et l'image. Il pourrait traiter l'audio et la vidéo à l'avenir.Les chercheurs chinois disent avoir construit le plus grand modèle NLP
Jusqu'en mai 2021, GPT-3 d'OpenAI, un laboratoire indépendant américain de recherche sur l'IA cofondé par Elon Musk, était le modèle NLP le plus puissant au monde. GPT-3 est la troisième génération du gigantesque modèle de langage "Generative Pre-trained Transformer" d'OpenAI, qui peut tout écrire, du code informatique à la poésie. Mais, en juin, l'Académie d'intelligence artificielle de l'université Tsinghua de Pékin a publié un modèle encore plus grand, Wu Dao 2.0, avec dix fois plus de paramètres - les valeurs du réseau neuronal qui codent l'information - que GPT-3.
Alors que GPT-3 compte 175 milliards de paramètres, les créateurs du modèle Wu Dao 2.0 affirment qu'il en compte 1,75 mille milliards. Les chiffres ne racontent pas une histoire complète, mais juste pour le plaisir : Wu Dao 2.0 est 10 fois plus puissant que GPT-3. Contrairement aux modèles d'apprentissage profond conventionnels qui sont généralement spécifiques à une tâche, Wu Dao 2.0 est un modèle multimodal formé pour traiter à la fois le texte et l'image, deux ensembles de problèmes radicalement différents. Comme GPT-3, Wu Dao 2.0 serait capable d'écrire des poèmes et des couplets dans le style traditionnel chinois, de répondre à des questions, de rédiger des essais, etc.
En outre, le modèle serait également capable de générer du texte alternatif pour des images et de générer des images à partir de descriptions textuelles, comme le modèle DALL-E d'OpenAI, qui compte environ 12 milliards de paramètres. Selon les créateurs de Wu Dao 2.0, le modèle a une stratégie de mise à l'échelle similaire à celle du modèle Switch Transformer de Google. Il serait même capable d'alimenter des "idoles virtuelles", avec l'aide de XiaoIce, un système d'IA développé par Microsoft Asia, de sorte qu'il peut également y avoir un support vocal, en plus du texte et de l'image.
Par ailleurs, Tang Jie, professeur à l'université Tsinghua et chef du projet Wu Dao, a déclaré lors d'une interview en juin dernier, que le groupe a construit un modèle encore plus grand, de 100 000 milliards de paramètres, bien qu'il ne l'ait pas entraîné jusqu'à la "convergence", le point auquel le modèle cesse de s'améliorer. « Nous voulions simplement prouver que nous étions capables de le faire », a déclaré Tang. Notons que GPT-3 et Wu Dao 2.0 sont des modèles d'IA multimodaux.
En effet, l'IA multimodale est un nouveau paradigme de l'IA, dans lequel différents types de données (texte, image, parole, etc.) sont combinés à de multiples algorithmes de traitement pour obtenir de meilleures performances. Selon les chercheurs, l'IA multimodale surpasse souvent l'IA monomodale dans de nombreux problèmes du monde réel. Le modèle multimodal est actuellement un mot à la mode au sein de la communauté de l'apprentissage profond.
Le MUM (Multi-task Unified Model) de Google, dévoilé en mai 2021 lors de la conférence annuelle des développeurs du géant de Mountain View, capable de répondre à des questions complexes et de distiller des informations à partir de textes et d'images, est un exemple récent de modèles multimodaux. Selon la plupart des mesures, Wu Dao 2.0 a surpassé GPT-3. Tang indique qu'il a été entraîné sur 4,9 téraoctets de données propres, y compris du texte en chinois, du texte en anglais et des images. OpenAI a déclaré que GPT-3 avait été entraîné sur seulement 570 gigaoctets de texte propre, principalement en anglais.
Tang indique que son groupe travaille maintenant sur la vidéo dans le but de générer des vidéos réalistes à partir de descriptions textuelles. « Avec un peu de chance, nous pourrons faire en sorte que ce modèle aille au-delà du test de Turing », dit-il, en faisant référence à l'évaluation de la capacité d'un ordinateur à générer un texte indiscernable de celui créé par un humain. « C'est notre objectif final », a-t-il ajouté.
La Chine est-elle devenue incontournable dans la recherche sur l'IA ?
Selon des experts, les États-Unis dominaient le secteur de la recherche sur l'IA, mais se sont progressivement fait rattraper par la Chine. « La Chine est un concurrent que les États-Unis ont encouragé. Une poignée d'entreprises technologiques...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.
