Última revisión:

¿Qué es la inferencia en IA? Definición y retos para la empresa

La inferencia es la fase de uso de un modelo de IA, durante la cual el modelo calcula una respuesta a partir de un prompt dado. Es la operación facturada por los proveedores de API, distinta del entrenamiento, que es un coste fijo inicial.

La inferencia consiste en hacer pasar una consulta a través de la red neuronal del modelo para generar una salida. Para un LLM, esto equivale a predecir los tokens de la respuesta uno por uno, cada token necesitando un recorrido completo por la red. Cuanto más grande es el modelo (en número de parámetros), más cálculos exige cada recorrido, y más aumenta la latencia. Tres variables condicionan el coste de inferencia: el tamaño del modelo (más parámetros equivale a más cálculos por token), el número de tokens de entrada y de salida (proporción directa), y la precisión numérica utilizada (FP32, FP16, INT8, INT4). La cuantificación reduce la precisión sin degradar significativamente la calidad, y divide proporcionalmente el consumo de memoria y el coste de cálculo. La inferencia representa lo esencial del coste de producción de una aplicación de IA: según los análisis públicos de NVIDIA, alrededor del 80 % del presupuesto operativo de IA de una empresa desplegada a escala va a la inferencia, frente al 20 % al entrenamiento.

Ejemplo concreto

Según el informe Stanford AI Index 2025, el coste de inferencia para un modelo al nivel de GPT-3.5 (puntuación MMLU 64,8) pasó de 20 dólares por millón de tokens en noviembre de 2022 a 0,07 dólares por millón en octubre de 2024, es decir, una reducción de 280 veces en dieciocho meses. La misma calidad, antes reservada a las organizaciones con un presupuesto de IA dedicado, es hoy accesible por unas decenas de euros al mes a escala de PYME. Esta caída continua cambia el arbitraje económico: lo que estaba fuera de alcance en 2023 es ahora una partida de gasto secundaria.

Ver también

Fuentes

  1. Artificial Intelligence Index Report 2025, Stanford HAI, capítulo 1. https://hai.stanford.edu/ai-index/2025-ai-index-report (consultado el 2026-05-24)
  2. Tarifas públicas Anthropic Claude API 2026. https://www.anthropic.com/pricing (consultado el 2026-05-24)

← Volver al glosario

Dirección copiada