Dernière revue :
Qu'est-ce qu'un paramètre d'IA ? Définition et enjeux pour l'entreprise
Un paramètre d'un modèle d'IA est une valeur numérique apprise pendant l'entraînement, qui détermine la force des connexions entre neurones artificiels du réseau. Le nombre de paramètres mesure la capacité du modèle à stocker des associations entre les éléments de son corpus d'apprentissage.
Un réseau de neurones artificiel est composé de couches de neurones reliées par des connexions, chacune affectée d'un poids numérique. Ces poids sont les paramètres du modèle. Au début de l'entraînement, ils sont initialisés aléatoirement. À chaque exemple traité, l'algorithme de rétropropagation ajuste légèrement ces poids pour réduire l'erreur entre la prédiction du modèle et la réponse attendue. Après des milliards d'itérations, les paramètres convergent vers des valeurs qui encodent les régularités statistiques du corpus. Plus le nombre de paramètres est élevé, plus le modèle peut stocker d'associations fines, mais plus son entraînement coûte cher (en GPU, en électricité, en données) et plus son inférence est lente. Une technique appelée quantification permet de réduire la précision numérique de chaque paramètre (de 32 à 8 ou 4 bits), divisant la mémoire requise par 4 à 8, généralement sans dégradation significative de la qualité.
Exemple concret
En 2017, le transformer original comptait 65 millions de paramètres et tenait sur un GPU de 16 Go. Aujourd'hui, un modèle Llama 3 de 70 milliards de paramètres exige 280 Go de mémoire à pleine précision (FP32), ou 35 Go en quantification 4 bits (INT4). Cette compression rend possible le déploiement de modèles de qualité quasi équivalente sur des serveurs standards : un Mistral 7B quantifié tourne sur un MacBook Pro M3 avec moins de 4 Go de RAM, là où GPT-3 (175 milliards de paramètres) requiert un cluster spécialisé valant plusieurs centaines de milliers d'euros.
À voir aussi
Sources
- Language Models are Few-Shot Learners, Brown et al., NeurIPS 2020. https://arxiv.org/abs/2005.14165
- The Llama 3 Herd of Models, Meta AI, 2024. https://ai.meta.com/research/publications/the-llama-3-herd-of-models/