Google a annoncé une technologie révolutionnaire appelée CALM qui accélère les grands modèles de langage (comme GPT-3 et LaMDA) sans compromettre les niveaux de performances.

De plus grandes données de formation sont meilleures mais ont un coût

Les grands modèles de langage (LLM) s’entraînent sur de grandes quantités de données.

La formation des modèles de langage sur de plus grandes quantités de données permet au modèle d’apprendre de nouvelles capacités qui ne sont pas toujours prévues.

Par exemple, l’ajout de plus de données d’apprentissage à un modèle de langage peut entraîner de manière inattendue l’acquisition de la capacité de traduire entre différentes langues, même s’il n’a pas été formé pour le faire.

Ces nouvelles capacités sont appelées capacités émergentes, des capacités qui ne sont pas nécessairement prévues.

Un autre document de recherche (PDF) sur les capacités émergentes déclare :

« Bien qu’il existe des dizaines d’exemples de capacités émergentes, il existe actuellement peu d’explications convaincantes pour expliquer pourquoi de telles capacités émergent comme elles le font. »

Ils ne peuvent pas expliquer pourquoi différentes capacités sont acquises.

Mais il est bien connu que l’augmentation de la quantité de données pour entraîner la machine lui permet d’acquérir plus de capacités.

L’inconvénient de la mise à l’échelle des données d’apprentissage est qu’il faut plus de puissance de calcul pour produire une sortie, ce qui ralentit l’IA au moment où elle génère une sortie de texte (un moment appelé «temps d’inférence»).

Ainsi, le compromis pour rendre une IA plus intelligente avec plus de données est que l’IA devient également plus lente au moment de l’inférence.

Le nouveau document de recherche de Google (Modélisation du langage adaptatif confiant PDF) décrit le problème comme suit :

« Les progrès récents des grands modèles de langage (LLM) basés sur Transformer ont conduit à des améliorations significatives des performances dans de nombreuses tâches.

Ces gains s’accompagnent d’une augmentation drastique de la taille des modèles, ce qui peut entraîner une utilisation lente et coûteuse au moment de l’inférence. »

Modélisation du langage adaptatif confiant (CALM)

Les chercheurs de Google ont trouvé une solution intéressante pour accélérer les modèles de langage tout en maintenant des performances élevées.

La solution, pour faire une analogie, est un peu comme la différence entre répondre à une question facile et résoudre une question plus difficile.

Une question facile, comme de quelle couleur est le ciel, peut être répondue avec peu de réflexion.

Mais une réponse difficile nécessite de s’arrêter et de réfléchir un peu plus pour trouver la réponse.

Sur le plan informatique, les grands modèles de langage ne font pas de distinction entre une partie difficile d’une tâche de génération de texte et une partie facile.

Ils génèrent du texte pour les parties faciles et difficiles en utilisant toute leur puissance de calcul au moment de l’inférence.

La solution de Google s’appelle Confident Adaptive Language Modeling (CALM).

Ce que fait ce nouveau cadre est de consacrer moins de ressources aux parties triviales d’une tâche de génération de texte et de consacrer toute la puissance aux parties plus difficiles.

Le document de recherche sur CALM énonce le problème et la solution comme suit :

« Les progrès récents des grands modèles de langage (LLM) basés sur Transformer ont conduit à des améliorations significatives des performances dans de nombreuses tâches.

Ces gains s’accompagnent d’une augmentation drastique de la taille des modèles, entraînant potentiellement une utilisation lente et coûteuse au moment de l’inférence.

En pratique, cependant, la série de générations constituée par les LLM est composée de différents niveaux de difficulté.

Alors que certaines prédictions bénéficient réellement de la pleine capacité des modèles, d’autres continuations sont plus triviales et peuvent être résolues avec un calcul réduit.

… Bien que les grands modèles fonctionnent mieux en général, la même quantité de calculs peut ne pas être nécessaire pour chaque entrée pour obtenir des performances similaires (par exemple, selon que l’entrée est facile ou difficile).

Qu’est-ce que Google CALM et fonctionne-t-il ?

CALM fonctionne en allouant dynamiquement des ressources en fonction de la complexité de la partie individuelle de la tâche, en utilisant un algorithme pour prédire si quelque chose a besoin de ressources complètes ou partielles.

Le document de recherche partage qu’ils ont testé le nouveau système pour diverses tâches de traitement du langage naturel (« résumé de texte, traduction automatique et réponse aux questions ») et ont découvert qu’ils étaient capables d’accélérer l’inférence d’environ un facteur de trois (300%) .

L’illustration suivante montre le bon fonctionnement du système CALM.

Les quelques zones en rouge indiquent où la machine a dû utiliser sa pleine capacité sur cette partie de la tâche.

Les zones en vert correspondent aux endroits où la machine n’a utilisé que moins de la moitié de sa capacité.

Rouge = pleine capacité/vert = moins de la moitié de la capacité

CALME de Google

Voici ce que dit le document de recherche à propos de l’illustration ci-dessus :

« CALM accélère la génération en sortant tôt lorsque cela est possible et en utilisant de manière sélective la capacité complète du décodeur uniquement pour quelques jetons, démontré ici sur un exemple CNN/DM avec une mesure de confiance basée sur softmax. Y (1) early et Y (2) early utilisent des seuils de confiance différents pour la sortie précoce.

Ci-dessous (sic) le texte, nous rapportons la cohérence textuelle et de risque mesurée de chacun des deux résultats, ainsi que les gains d’efficacité.

Les couleurs représentent le nombre de couches de décodage utilisées pour chaque jeton – les nuances de vert clair indiquent moins de la moitié des couches totales.

Seuls quelques jetons sélectionnés utilisent la pleine capacité du modèle (colorés en rouge), tandis que pour la plupart des jetons, le modèle sort après une ou quelques couches de décodage (colorés en vert).

Les chercheurs ont conclu l’article en notant que la mise en œuvre de CALM ne nécessite que des modifications minimes afin d’adapter un grand modèle de langage pour qu’il devienne plus rapide.

Cette recherche est importante car elle ouvre la porte à la création de modèles d’IA plus complexes qui sont entraînés sur des ensembles de données beaucoup plus volumineux sans subir de ralentissement de la vitesse tout en maintenant un niveau de performance élevé.

Pourtant, il est possible que cette méthode puisse également bénéficier de grands modèles de langage qui sont également entraînés sur moins de données.

Par exemple, les modèles InstructGPT, dont ChatGPT est un modèle frère, sont formés sur environ 1,3 milliard de paramètres, mais sont toujours capables de surpasser les modèles qui sont formés sur beaucoup plus de paramètres.

Les chercheurs ont noté dans la conclusion :

« Dans l’ensemble, notre cadre de calcul adaptatif complet pour les LM nécessite des modifications minimales du modèle sous-jacent et permet des gains d’efficacité tout en satisfaisant des garanties de qualité rigoureuses pour la sortie. »

Ces informations sur ce document de recherche viennent d’être publiées sur le blog AI de Google le 16 décembre 2022. Le document de recherche lui-même est daté du 25 octobre 2022.

Il sera intéressant de voir si cette technologie fera son chemin dans les grands modèles de langage du futur proche.

Lisez le billet de blog de Google :

Accélération de la génération de texte avec Confident Adaptive Language Modeling (CALM)

Lire le document de recherche :

Modélisation du langage adaptatif confiant (PDF)

Image sélectionnée par Shutterstock/Master1305

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici