Última revisión:
¿Qué es la alineación de un modelo de IA? Definición y retos para la empresa
La alineación es el conjunto de técnicas que buscan orientar el comportamiento de un modelo de IA hacia los objetivos y los valores humanos de su usuario o de su editor. Transforma un modelo bruto, capaz de producir cualquier cosa, en un asistente útil, honesto y que rechaza las solicitudes contrarias a las reglas fijadas.
La alineación interviene en el postentrenamiento del modelo. Tres técnicas principales la constituyen. El aprendizaje supervisado por instrucción (instruction tuning): se presentan al modelo miles de ejemplos de buenas respuestas a consignas variadas, para que aprenda a seguir una instrucción. El aprendizaje por refuerzo con retroalimentación humana (RLHF, formalizado por Christiano et al. 2017, utilizado por OpenAI desde InstructGPT en 2022): evaluadores humanos clasifican las respuestas del modelo, y un modelo de recompensa entrenado sobre esas clasificaciones orienta el modelo final. La IA constitucional (Constitutional AI, Anthropic 2022): se sustituye una parte de la retroalimentación humana por un conjunto de principios escritos que el modelo utiliza para autocriticarse. La alineación sigue siendo un problema científico abierto. No garantiza la ausencia de comportamientos indeseables: reduce su probabilidad. La frontera entre alineación (orientar el comportamiento) y salvaguardas técnicas (bloquear en salida) es porosa, los dos enfoques se complementan.
Ejemplo concreto
Compare la misma consulta enviada a un modelo preentrenado bruto (GPT-3 davinci en 2020) y a su versión alineada (ChatGPT en 2022): «¿Cómo debo invertir 10 000 euros?». El modelo bruto produce una secuencia probabilística de palabras, a veces una lista de productos financieros sin contextualización, a veces un texto sin pertinencia para una decisión real. El modelo alineado plantea preguntas de encuadre (horizonte, perfil de riesgo, situación patrimonial), se niega a dar un consejo financiero comprometedor, y orienta hacia un profesional. Esta diferencia no se debe a un cambio de capacidad bruta, sino a 6 a 9 meses de trabajo de alineación por cientos de personas.
Ver también
Para profundizar
Constitutional AI: Harmlessness from AI Feedback, Bai et al., Anthropic 2022
Fuentes
- Constitutional AI: Harmlessness from AI Feedback, Bai et al., Anthropic, arXiv:2212.08073, 2022. https://arxiv.org/abs/2212.08073
- Training language models to follow instructions with human feedback (InstructGPT), Ouyang et al., OpenAI, arXiv:2203.02155, 2022. https://arxiv.org/abs/2203.02155