Última revisión: 25 de mayo de 2026

¿Qué es un LLM? Definición y retos para la empresa

Un LLM (Large Language Model) es un tipo de inteligencia artificial entrenado sobre corpus de texto de varios cientos de miles de millones de palabras, que produce lenguaje natural prediciendo, palabra por palabra, la continuación más probable de un texto dado.

Un LLM es una red neuronal de gran tamaño, generalmente construida sobre la arquitectura transformer (Vaswani et al., 2017), entrenada para predecir la palabra siguiente en una secuencia a partir de las palabras precedentes. Este objetivo sencillo, repetido sobre decenas de billones de tokens, basta para producir modelos capaces de responder a preguntas, redactar textos, traducir, razonar y programar. La familia de los LLM abarca tamaños muy distintos, desde el modelo ligero de 7 mil millones de parámetros (Mistral 7B) hasta los modelos de última generación con más de un billón de parámetros (GPT-4, estimado en 1,76 billones según las filtraciones de arquitectura). El tamaño ya no es el único criterio de calidad: desde 2024, modelos de 70 mil millones de parámetros bien entrenados rivalizan en los benchmarks corrientes con modelos cinco a veinte veces mayores, a un coste de inferencia muy inferior.

Ejemplo concreto

El transformer original, publicado por Google en 2017, contaba con 65 millones de parámetros. GPT-3, presentado por OpenAI en 2020, tenía 175 mil millones, es decir, 2 700 veces más en tres años. Desde entonces, la inflación ha continuado: Llama 3.1 (Meta) alcanza 405 mil millones en código abierto, y la arquitectura mixture of experts de GPT-4 totaliza unos 1,76 billones de parámetros según las estimaciones públicas. Pero en 2026, el líder en relación calidad-precio según los benchmarks MMLU públicos es Llama 3.3 con 70 mil millones de parámetros, que rivaliza con modelos diez veces mayores a un coste de inferencia muy inferior.

Tres implicaciones

La elección de un LLM se parece a una elección de infraestructura, no a una elección de software. Tres implicaciones para el dirigente. Primero, el tamaño en parámetros determina ante todo el coste de inferencia, solo después la calidad. Un modelo de 70 mil millones de parámetros bien entrenado cubre del 80 al 90 % de los casos de uso de empresa por un coste de cinco a diez veces inferior al de un modelo premium. Probar sistemáticamente los modelos intermedios antes de pagar por los flagship. Segundo, conviven tres familias: propietarias (GPT, Claude, Gemini), de código abierto (Llama, Mistral, DeepSeek), soberanas (Mistral AI en Europa). La elección compromete a la vez el coste, la confidencialidad de los datos y el grado de dependencia del proveedor. Tercero, el rendimiento de un modelo es también el de su tokenizador, su ventana de contexto y su robustez frente a las instrucciones adversariales. Ningún benchmark único capta estos tres ejes.

Ver también

Fuentes

Attention Is All You Need, Vaswani et al., NeurIPS 2017. https://arxiv.org/abs/1706.03762 (consultado el 2026-05-24)
Language Models are Few-Shot Learners, Brown et al., NeurIPS 2020. https://arxiv.org/abs/2005.14165 (consultado el 2026-05-24)

← Volver al glosario