Última revisión:
¿Qué es la arquitectura transformer? Definición y retos para la empresa
El transformer es la arquitectura de red neuronal, introducida por Google en 2017, que sustenta la casi totalidad de los modelos de IA generativa actuales. Su innovación central es el mecanismo de atención, que permite al modelo ponderar dinámicamente la importancia relativa de las palabras en una secuencia.
Antes de 2017, los modelos de procesamiento del lenguaje utilizaban arquitecturas secuenciales (RNN, LSTM) que trataban las palabras una por una, en orden. Este enfoque limitaba la capacidad del modelo para capturar relaciones entre palabras distantes en un texto, y dificultaba la paralelización del entrenamiento. La arquitectura transformer, presentada en el paper Attention Is All You Need (Vaswani et al., 2017), introduce una ruptura: el modelo trata todas las palabras simultáneamente, calculando para cada par de palabras una puntuación de atención que mide su pertinencia mutua. Consecuencia: la paralelización se vuelve posible (el entrenamiento pasa de secuencial a masivamente paralelo, explotable en GPU), y el modelo puede establecer vínculos a muy larga distancia en un texto. El transformer es hoy la base de todos los LLM mayores (GPT, Claude, Gemini, Llama, Mistral), pero también de los modelos de generación de imagen (DALL-E, Stable Diffusion) y de los modelos multimodales.
Ejemplo concreto
El paper original del transformer fue publicado por ocho investigadores de Google en junio de 2017. Describía un modelo de 65 millones de parámetros entrenado para la traducción inglés-alemán. Casi nueve años más tarde, en 2026, la arquitectura transformer sigue siendo la arquitectura dominante para todos los modelos de fundación publicados por los laboratorios mayores (OpenAI, Anthropic, Google DeepMind, Meta AI, Mistral). Las variantes arquitectónicas (encoder-only como BERT, decoder-only como GPT, mixture of experts como Mixtral) son todas evoluciones del transformer original. Ninguna otra arquitectura competidora (Mamba, RWKV) ha alcanzado una adopción industrial comparable, pese a promesas técnicas regulares.
Ver también
Para profundizar
Attention Is All You Need, paper original (Vaswani et al., 2017)
Fuentes
- Attention Is All You Need, Vaswani et al., NeurIPS 2017. https://arxiv.org/abs/1706.03762