Dernière revue :
Qu'est-ce qu'un embedding ? Définition et enjeux pour l'entreprise
Un embedding est la représentation numérique d'un mot, d'une phrase ou d'un document sous forme de vecteur dans un espace à plusieurs centaines ou milliers de dimensions. Deux textes proches sémantiquement ont des embeddings proches géométriquement, ce qui permet la recherche par sens et non par mots-clés.
Un modèle d'embedding est un réseau de neurones spécialisé, distinct du LLM, qui prend un texte en entrée et produit un vecteur numérique fixe en sortie. La dimension de ce vecteur varie selon le modèle : 1 536 pour OpenAI text-embedding-3-small, 3 072 pour text-embedding-3-large, 1 024 pour Voyage 3 ou Mistral Embed. Plus la dimension est élevée, plus le vecteur peut capturer de nuances sémantiques, au prix d'un coût de stockage et de calcul proportionnel. La propriété fondamentale d'un embedding est que la distance entre deux vecteurs (mesurée par produit scalaire ou similarité cosinus) reflète la proximité sémantique des textes correspondants. « Avocat de la défense » et « conseil juridique » sont distants dans le dictionnaire mais proches dans l'espace d'embedding. C'est ce qui permet, dans un RAG, de retrouver les passages pertinents même quand la requête utilise des mots différents de ceux du document cible.
Exemple concret
Une PME juridique de 30 collaborateurs indexe 5 000 contrats internes pour permettre à ses juristes une recherche par sens. En utilisant OpenAI text-embedding-3-small (1 536 dimensions, 0,02 dollar par million de tokens), l'indexation initiale coûte environ 15 euros pour la totalité du corpus, et chaque requête mensuelle additionnelle quelques centimes. Le stockage des vecteurs (5 000 documents × 1 536 dimensions × 4 octets) tient dans 30 Mo. Avec text-embedding-3-large (3 072 dimensions), la qualité augmente d'environ 2 points sur les benchmarks publics MTEB, pour un coût 6,5 fois supérieur. Le choix dépend de la sensibilité métier au rappel sémantique.
À voir aussi
Pour aller plus loin
Sources
- OpenAI Embeddings documentation. https://platform.openai.com/docs/guides/embeddings
- Massive Text Embedding Benchmark (MTEB) leaderboard, Hugging Face. https://huggingface.co/spaces/mteb/leaderboard