Vue d’ensemble
Les embeddings sont des vecteurs numériques qui capturent le sens sémantique du texte. Ils permettent d’effectuer des opérations mathématiques sur le texte, par exemple mesurer la « distance » ou la « similarité » entre différents segments. Ils sont une brique de base pour de nombreuses applications d’IA : recherche sémantique, clustering, recommandations, détection d’anomalies et classification. YouRouter donne accès à des modèles d’embedding leaders via une API simple et unifiée.Utilisation
Traitement par lots
Pour plus d’efficacité, vous pouvez passer un tableau de chaînes au paramètreinput pour générer plusieurs embeddings en une seule requête.
Paramètres
Le ou les textes à encoder. Peut être une seule chaîne ou un tableau de chaînes pour le traitement par lots.
L’ID du modèle d’embedding à utiliser (par ex.
text-embedding-ada-002).Format des embeddings renvoyés :
float ou base64. Le base64 réduit la taille du JSON.Identifiant unique de l’utilisateur final, utile pour la surveillance et la détection d’abus.
Cas d’usage
Recherche sémantique
Au lieu d’un simple appariement par mots-clés, la recherche sémantique trouve des résultats contextuellement liés à la requête, même sans mots identiques. On compare l’embedding de la requête aux embeddings des documents.Classification et clustering
Les embeddings constituent de puissantes caractéristiques pour les modèles d’apprentissage automatique : classifieurs (analyse de sentiments, catégories de sujets) ou algorithmes de clustering pour regrouper des éléments similaires.Bonnes pratiques
Prétraitement
Prétraitement
Les modèles d’embedding modernes sont robustes ; pour certaines applications, un prétraitement léger (nettoyage de caractères, normalisation) peut aider. Évitez un stemming agressif ou la suppression systématique des mots vides, qui peut faire perdre du contexte.
Lots pour l’efficacité
Lots pour l’efficacité
Pour encoder plusieurs textes, utilisez toujours le traitement par lots en passant un tableau de chaînes. Cela réduit fortement la latence en limitant les allers-retours réseau.
Mise en cache
Mise en cache
Si vous encodez souvent les mêmes textes (requêtes populaires, titres de documents), ajoutez une couche de cache (Redis, cache mémoire) pour stocker et réutiliser les embeddings. Moins d’appels API, coûts réduits, meilleures performances.
Passer à l’échelle : bases de données vectorielles
Au-delà de quelques milliers d’embeddings, une recherche de similarité naïve devient lente. Les bases de données vectorielles sont conçues pour stocker et rechercher des millions voire des milliards d’embeddings rapidement, avec des index (HNSW, IVF, etc.) pour des recherches de plus proches voisins approximatives (ANN), bon compromis vitesse / précision. Exemples courants :- Cloud : Pinecone, Zilliz Cloud
- Open source / auto-hébergé : Weaviate, Milvus, Chroma, Qdrant