Dernière revue :
Qu'est-ce que l'architecture transformer ? Définition et enjeux pour l'entreprise
Le transformer est l'architecture de réseau de neurones, introduite par Google en 2017, qui sous-tend la quasi-totalité des modèles d'IA générative actuels. Son innovation centrale est le mécanisme d'attention, qui permet au modèle de pondérer dynamiquement l'importance relative des mots dans une séquence.
Avant 2017, les modèles de traitement du langage utilisaient des architectures séquentielles (RNN, LSTM) qui traitaient les mots un par un, dans l'ordre. Cette approche limitait la capacité du modèle à capturer des relations entre mots distants dans un texte, et rendait l'entraînement difficile à paralléliser. L'architecture transformer, présentée dans le paper Attention Is All You Need (Vaswani et al., 2017), introduit une rupture : le modèle traite tous les mots simultanément, en calculant pour chaque paire de mots un score d'attention qui mesure leur pertinence mutuelle. Conséquence : la parallélisation devient possible (l'entraînement passe de séquentiel à massivement parallèle, exploitable sur GPU), et le modèle peut établir des liens à très longue distance dans un texte. Le transformer est aujourd'hui à la base de tous les LLM majeurs (GPT, Claude, Gemini, Llama, Mistral), mais aussi des modèles de génération d'image (DALL-E, Stable Diffusion) et des modèles multimodaux.
Exemple concret
Le paper original du transformer a été publié par huit chercheurs de Google en juin 2017. Il décrivait un modèle de 65 millions de paramètres entraîné pour la traduction anglais-allemand. Près de neuf ans plus tard, en 2026, l'architecture transformer reste l'architecture dominante pour tous les modèles de fondation publiés par les laboratoires majeurs (OpenAI, Anthropic, Google DeepMind, Meta AI, Mistral). Les variantes architecturales (encoder-only comme BERT, decoder-only comme GPT, mixture of experts comme Mixtral) sont toutes des évolutions du transformer original. Aucune autre architecture concurrente (Mamba, RWKV) n'a atteint d'adoption industrielle comparable, malgré des promesses techniques régulières.
À voir aussi
Pour aller plus loin
Attention Is All You Need, paper original (Vaswani et al., 2017)
Sources
- Attention Is All You Need, Vaswani et al., NeurIPS 2017. https://arxiv.org/abs/1706.03762