Última revisión:

¿Qué es un LLM? Definición y retos para la empresa

Un LLM (Large Language Model) es un tipo de inteligencia artificial entrenado sobre corpus de texto de varios cientos de miles de millones de palabras, que produce lenguaje natural prediciendo, palabra por palabra, la continuación más probable de un texto dado.

Un LLM es una red neuronal de gran tamaño, generalmente construida sobre la arquitectura transformer (Vaswani et al., 2017), entrenada para predecir la palabra siguiente en una secuencia a partir de las palabras precedentes. Este objetivo sencillo, repetido sobre decenas de billones de tokens, basta para producir modelos capaces de responder a preguntas, redactar textos, traducir, razonar y programar. La familia de los LLM abarca tamaños muy distintos, desde el modelo ligero de 7 mil millones de parámetros (Mistral 7B) hasta los modelos de última generación con más de un billón de parámetros (GPT-4, estimado en 1,76 billones según las filtraciones de arquitectura). El tamaño ya no es el único criterio de calidad: desde 2024, modelos de 70 mil millones de parámetros bien entrenados rivalizan en los benchmarks corrientes con modelos cinco a veinte veces mayores, a un coste de inferencia muy inferior.

Ejemplo concreto

El transformer original, publicado por Google en 2017, contaba con 65 millones de parámetros. GPT-3, presentado por OpenAI en 2020, tenía 175 mil millones, es decir, 2 700 veces más en tres años. Desde entonces, la inflación ha continuado: Llama 3.1 (Meta) alcanza 405 mil millones en código abierto, y la arquitectura mixture of experts de GPT-4 totaliza unos 1,76 billones de parámetros según las estimaciones públicas. Pero en 2026, el líder en relación calidad-precio según los benchmarks MMLU públicos es Llama 3.3 con 70 mil millones de parámetros, que rivaliza con modelos diez veces mayores a un coste de inferencia muy inferior.

Ver también

Fuentes

  1. Attention Is All You Need, Vaswani et al., NeurIPS 2017. https://arxiv.org/abs/1706.03762 (consultado el 2026-05-24)
  2. Language Models are Few-Shot Learners, Brown et al., NeurIPS 2020. https://arxiv.org/abs/2005.14165 (consultado el 2026-05-24)

← Volver al glosario

Dirección copiada