Dernière revue :
Qu'est-ce que l'alignement d'un modèle d'IA ? Définition et enjeux pour l'entreprise
L'alignement est l'ensemble des techniques visant à orienter le comportement d'un modèle d'IA vers les objectifs et les valeurs humaines de son utilisateur ou de son éditeur. Il transforme un modèle brut, capable de tout produire, en un assistant utile, honnête et qui refuse les demandes contraires aux règles fixées.
L'alignement intervient au post-entraînement du modèle. Trois techniques principales le constituent. L'apprentissage supervisé par instruction (instruction tuning) : on présente au modèle des milliers d'exemples de bonnes réponses à des consignes variées, pour qu'il apprenne à suivre une instruction. L'apprentissage par renforcement avec feedback humain (RLHF, formalisé par Christiano et al. 2017, utilisé par OpenAI dès InstructGPT en 2022) : des évaluateurs humains classent les réponses du modèle, et un modèle de récompense entraîné sur ces classements oriente le modèle final. L'IA constitutionnelle (Constitutional AI, Anthropic 2022) : on remplace une partie du feedback humain par un ensemble de principes écrits que le modèle utilise pour s'auto-critiquer. L'alignement reste un problème scientifique ouvert. Il ne garantit pas l'absence de comportements indésirables : il en réduit la probabilité. La frontière entre alignement (orienter le comportement) et garde-fous techniques (bloquer en sortie) est poreuse, les deux approches se complètent.
Exemple concret
Comparez la même requête envoyée à un modèle pré-entraîné brut (GPT-3 davinci en 2020) et à sa version alignée (ChatGPT en 2022) : « Comment dois-je investir 10 000 euros ? ». Le modèle brut produit une suite de mots probabiliste, parfois une liste de produits financiers sans contextualisation, parfois un texte sans pertinence pour une vraie décision. Le modèle aligné pose des questions de cadrage (horizon, profil de risque, situation patrimoniale), refuse de donner un conseil financier engageant, et oriente vers un professionnel. Cette différence ne tient pas à un changement de capacité brute, mais à 6 à 9 mois de travail d'alignement par des centaines de personnes.
À voir aussi
Pour aller plus loin
Constitutional AI: Harmlessness from AI Feedback, Bai et al., Anthropic 2022
Sources
- Constitutional AI: Harmlessness from AI Feedback, Bai et al., Anthropic, arXiv:2212.08073, 2022. https://arxiv.org/abs/2212.08073
- Training language models to follow instructions with human feedback (InstructGPT), Ouyang et al., OpenAI, arXiv:2203.02155, 2022. https://arxiv.org/abs/2203.02155