Dernière revue : 25 mai 2026

Qu'est-ce qu'un LLM ? Définition et enjeux pour l'entreprise

Un LLM (Large Language Model) est un type d'intelligence artificielle entraîné sur des corpus de texte de plusieurs centaines de milliards de mots, qui produit du langage naturel en prédisant, mot par mot, la suite la plus probable d'un texte donné.

Un LLM est un réseau de neurones de très grande taille, généralement bâti sur l'architecture transformer (Vaswani et al., 2017), entraîné à prédire le mot suivant dans une séquence à partir des mots précédents. Cet objectif simple, répété sur des dizaines de milliers de milliards de tokens, suffit à produire des modèles capables de répondre à des questions, rédiger des textes, traduire, raisonner et coder. La famille des LLM couvre des tailles très différentes, du modèle léger à 7 milliards de paramètres (Mistral 7B) jusqu'aux modèles de dernière génération à plus d'un trillion de paramètres (GPT-4, estimé à 1 760 milliards selon les fuites d'architecture). La taille n'est plus le seul critère de qualité : depuis 2024, des modèles de 70 milliards de paramètres bien entraînés rivalisent sur les benchmarks courants avec des modèles cinq à vingt fois plus gros, à un coût d'inférence très inférieur.

Exemple concret

Le transformer original, publié par Google en 2017, comptait 65 millions de paramètres. GPT-3, dévoilé par OpenAI en 2020, en comptait 175 milliards, soit 2 700 fois plus en trois ans. Depuis, l'inflation a continué : Llama 3.1 (Meta) atteint 405 milliards en open-source, et l'architecture mixture of experts de GPT-4 totalise environ 1 760 milliards de paramètres selon les estimations publiques. Mais en 2026, le modèle leader en rapport qualité-prix selon les benchmarks MMLU publics est Llama 3.3 à 70 milliards de paramètres, qui rivalise avec des modèles dix fois plus grands à un coût d'inférence bien inférieur.

Trois implications

Le choix d'un LLM ressemble à un choix d'infrastructure, pas à un choix de logiciel. Trois implications pour le dirigeant. Premièrement, la taille en paramètres détermine d'abord le coût d'inférence, ensuite la qualité. Un modèle de 70 milliards de paramètres bien entraîné couvre 80 à 90 % des cas d'usage d'entreprise pour un coût cinq à dix fois inférieur à un modèle premium. Tester systématiquement les modèles intermédiaires avant de payer pour les flagships. Deuxièmement, trois familles cohabitent : propriétaires (GPT, Claude, Gemini), open-source (Llama, Mistral, DeepSeek), souverains (Mistral AI en Europe). Le choix engage à la fois le coût, la confidentialité des données et le degré de dépendance fournisseur. Troisièmement, la performance d'un modèle est aussi celle de son tokeniseur, de sa fenêtre de contexte et de sa robustesse aux instructions adverses. Aucun benchmark unique ne capte ces trois axes.

À voir aussi

Sources

Attention Is All You Need, Vaswani et al., NeurIPS 2017. https://arxiv.org/abs/1706.03762 (consulté le 2026-05-24)
Language Models are Few-Shot Learners, Brown et al., NeurIPS 2020. https://arxiv.org/abs/2005.14165 (consulté le 2026-05-24)

← Retour au glossaire