Última revisión:

¿Qué es un embedding? Definición y retos para la empresa

Un embedding es la representación numérica de una palabra, de una frase o de un documento, en forma de vector en un espacio de varios cientos o miles de dimensiones. Dos textos semánticamente próximos tienen embeddings geométricamente próximos, lo que permite la búsqueda por sentido y no por palabras clave.

Un modelo de embedding es una red neuronal especializada, distinta del LLM, que toma un texto en entrada y produce un vector numérico fijo en salida. La dimensión de ese vector varía según el modelo: 1 536 para OpenAI text-embedding-3-small, 3 072 para text-embedding-3-large, 1 024 para Voyage 3 o Mistral Embed. Cuanto mayor es la dimensión, más matices semánticos puede capturar el vector, a costa de un coste de almacenamiento y de cálculo proporcional. La propiedad fundamental de un embedding es que la distancia entre dos vectores (medida por producto escalar o similitud coseno) refleja la proximidad semántica de los textos correspondientes. «Abogado de la defensa» y «asesor jurídico» son distantes en el diccionario pero próximos en el espacio de embedding. Eso es lo que permite, en un RAG, recuperar los pasajes pertinentes incluso cuando la consulta utiliza palabras distintas de las del documento objetivo.

Ejemplo concreto

Una PYME jurídica de 30 colaboradores indexa 5 000 contratos internos para permitir a sus juristas una búsqueda por sentido. Utilizando OpenAI text-embedding-3-small (1 536 dimensiones, 0,02 dólares por millón de tokens), la indexación inicial cuesta unos 15 euros para la totalidad del corpus, y cada consulta mensual adicional unos pocos céntimos. El almacenamiento de los vectores (5 000 documentos × 1 536 dimensiones × 4 bytes) cabe en 30 MB. Con text-embedding-3-large (3 072 dimensiones), la calidad aumenta unos 2 puntos en los benchmarks públicos MTEB, por un coste 6,5 veces superior. La elección depende de la sensibilidad de negocio a la recuperación semántica.

Ver también

Para profundizar

OpenAI documentation, Embeddings guide (recurso externo)

Fuentes

  1. OpenAI Embeddings documentation. https://platform.openai.com/docs/guides/embeddings (consultado el 2026-05-24)
  2. Massive Text Embedding Benchmark (MTEB) leaderboard, Hugging Face. https://huggingface.co/spaces/mteb/leaderboard (consultado el 2026-05-24)

← Volver al glosario

Dirección copiada