Dernière revue :
Qu'est-ce qu'une base vectorielle ? Définition et enjeux pour l'entreprise
Une base vectorielle est une base de données spécialisée dans le stockage et la recherche de vecteurs (embeddings). Elle permet de retrouver, pour une requête donnée, les contenus les plus sémantiquement proches dans un corpus, sans correspondance lexicale exacte. C'est le moteur de recherche typique d'un système RAG.
Une base vectorielle stocke des embeddings, c'est-à-dire des représentations numériques (typiquement 768 à 3 072 dimensions) du sens des documents indexés. Lorsqu'une requête arrive, elle est convertie en embedding, et la base cherche les vecteurs les plus proches selon une mesure de similarité (cosinus, produit scalaire). Pour passer à l'échelle, ces bases utilisent des algorithmes d'approximation (ANN, approximate nearest neighbors) comme HNSW ou IVF, qui sacrifient une précision marginale pour des temps de réponse en millisecondes sur des milliards de vecteurs. Le marché en 2026 comprend trois catégories. Les acteurs spécialisés purs : Pinecone, Weaviate, Qdrant, Milvus. Les extensions de bases relationnelles : pgvector pour PostgreSQL, Azure SQL avec extensions. Les bases multi-modèles : MongoDB, Elasticsearch, Redis qui ont intégré la recherche vectorielle. Le choix dépend de la maturité de l'équipe, du volume, et de la nécessité de combiner recherche vectorielle et recherche structurée classique.
Exemple concret
Un cabinet d'avocats de 150 collaborateurs indexe 80 000 actes juridiques anciens pour permettre à ses associés d'interroger sa propre jurisprudence interne. Trois options techniques comparées. Pinecone (cloud propriétaire) : 380 euros par mois pour ce volume, mise en route en 2 jours, hébergement US. Qdrant Cloud Europe : 220 euros par mois, mise en route en 3 jours, hébergement Frankfurt, conforme RGPD. pgvector sur PostgreSQL interne : coût quasi nul si le SGBD existe déjà, mise en route en 7 à 10 jours, contrôle total. Le cabinet a choisi pgvector pour la souveraineté et le coût, malgré la mise en route plus longue.
À voir aussi
Pour aller plus loin
Efficient and robust approximate nearest neighbor search using HNSW, Malkov & Yashunin, 2016
Sources
- Efficient and robust approximate nearest neighbor search using HNSW graphs, Malkov & Yashunin, arXiv:1603.09320, 2016. https://arxiv.org/abs/1603.09320
- Vector database comparison, Pinecone documentation, 2026. https://www.pinecone.io/learn/vector-database/