Última revisión:
¿Qué es un parámetro de IA? Definición y retos para la empresa
Un parámetro de un modelo de IA es un valor numérico aprendido durante el entrenamiento, que determina la fuerza de las conexiones entre las neuronas artificiales de la red. El número de parámetros mide la capacidad del modelo para almacenar asociaciones entre los elementos de su corpus de aprendizaje.
Una red neuronal artificial se compone de capas de neuronas conectadas, cada conexión afectada por un peso numérico. Esos pesos son los parámetros del modelo. Al inicio del entrenamiento, se inicializan de forma aleatoria. En cada ejemplo procesado, el algoritmo de retropropagación ajusta ligeramente esos pesos para reducir el error entre la predicción del modelo y la respuesta esperada. Después de miles de millones de iteraciones, los parámetros convergen hacia valores que codifican las regularidades estadísticas del corpus. Cuanto mayor es el número de parámetros, más asociaciones finas puede almacenar el modelo, pero más caro resulta su entrenamiento (en GPU, electricidad, datos) y más lenta su inferencia. Una técnica llamada cuantificación permite reducir la precisión numérica de cada parámetro (de 32 a 8 o 4 bits), dividiendo la memoria requerida por 4 a 8, generalmente sin degradación significativa de la calidad.
Ejemplo concreto
En 2017, el transformer original contaba con 65 millones de parámetros y cabía en una GPU de 16 GB. Hoy, un modelo Llama 3 de 70 mil millones de parámetros exige 280 GB de memoria a plena precisión (FP32), o 35 GB con cuantificación de 4 bits (INT4). Esta compresión permite desplegar modelos de calidad casi equivalente en servidores estándar: un Mistral 7B cuantificado funciona en un MacBook Pro M3 con menos de 4 GB de RAM, mientras que GPT-3 (175 mil millones de parámetros) requiere un clúster especializado valorado en varios cientos de miles de euros.
Ver también
Fuentes
- Language Models are Few-Shot Learners, Brown et al., NeurIPS 2020. https://arxiv.org/abs/2005.14165
- The Llama 3 Herd of Models, Meta AI, 2024. https://ai.meta.com/research/publications/the-llama-3-herd-of-models/