Word2Vec expliqué simplement
Comment fonctionne l'algorithme Cémantix - QuelMot ?
Vecteurs, embeddings, corpus frWac : la technologie derrière les jeux sémantiques français.
Cémantix et QuelMot reposent sur la même technologie : Word2Vec, un algorithme entraîné sur le corpus frWac (web français). Cette page explique en français accessible comment il transforme des mots en nombres et calcule la proximité sémantique. Aucune compétence technique requise.
En une phrase
Word2Vec est un algorithme qui transforme chaque mot en un vecteur de nombres : deux mots avec des vecteurs proches sont des mots qui apparaissent dans des contextes similaires, donc sémantiquement liés.
Le concept : représenter les mots comme des vecteurs
Un ordinateur ne "comprend" pas le sens d'un mot comme un humain. Pour pouvoir manipuler du langage, il faut d'abord traduire les mots en quelque chose qu'il sait calculer : des nombres.
La solution proposée par Word2Vec est d'assigner à chaque mot un vecteur, c'est-à-dire une liste ordonnée de nombres. Dans le modèle français Fauconnier utilisé par Cémantix et QuelMot, chaque mot est représenté par un vecteur de 500 dimensions.
L'idée clé : deux mots dont les vecteurs sont proches sont des mots de sens proche. On mesure cette proximité via le cosinus de l'angle entre les deux vecteurs : un cosinus de 1 = vecteurs identiques (mêmes mots), un cosinus de 0 = aucune relation, un cosinus de -1 = vecteurs opposés.
Comment Word2Vec apprend ces vecteurs
Word2Vec part d'un principe linguistique simple, formulé par John Rupert Firth en 1957 : "You shall know a word by the company it keeps" (on connaît un mot à ses fréquentations). En pratique :
- L'algorithme lit des millions de phrases extraites du web.
- Pour chaque mot rencontré, il regarde les mots qui apparaissent autour, dans une fenêtre de contexte (typiquement 5 à 10 mots).
- Exemple : "chien" apparaît souvent près de "aboie", "promenade", "laisse", "chat", "niche".
- Au fil de l'entraînement (plusieurs passes sur tout le corpus), les vecteurs s'ajustent pour que les mots partageant les mêmes contextes finissent avec des vecteurs proches.
Résultat : les mots qui apparaissent dans les mêmes contextes ont des vecteurs proches, même si l'algorithme n'a jamais reçu de définition de leur sens. C'est purement statistique.
Référence : Mikolov et al., 2013 - "Efficient Estimation of Word Representations in Vector Space". Deux variantes existent : CBOW (utilisée par Cémantix et QuelMot) et Skip-gram.
Le corpus frWac : sur quoi s'entraîne le modèle français
frWac (french Web as Corpus) est un corpus d'environ 1,6 milliard de mots extraits de pages web francophones, collecté en 2009 par l'université de Bologne dans le cadre du projet WaCky. C'est la matière première sur laquelle Word2Vec a été entraîné pour produire les vecteurs français utilisés par Cémantix et QuelMot.
- Avantage : taille massive, couverture du français courant et littéraire, vocabulaire riche.
- Limite temporelle : collecte en 2009, donc pas de vocabulaire récent (covid, télétravail, tiktok, woke, etc.).
- Bruit du web : noms propres, marques, jargon, fautes de frappe. Un filtrage Hunspell réduit ce bruit côté QuelMot pour ne garder que les vrais lemmes français.
Les vecteurs entraînés sur ce corpus ont été publiés en open source par Jean-Philippe Fauconnier (information mentionnée dans le footer Cémantix). Ce sont exactement les mêmes vecteurs que QuelMot utilise pour calculer ses scores.
Pourquoi le score est entre -1000 et 1000
Le calcul brut est un cosinus, donc une valeur mathématique entre -1 (vecteurs opposés) et +1 (vecteurs identiques). Cémantix et QuelMot multiplient ce cosinus par 1000 pour obtenir des entiers plus faciles à lire. Le score 1000 est réservé au mot exact du jour.
| Score | Niveau | Interprétation |
|---|---|---|
| 1000 | Mot trouvé | Le score maximum, atteint uniquement par le mot exact du jour. |
| 900-999 | Brûlant | Synonyme direct ou variation très proche du mot secret. |
| 700-900 | Très chaud | Champ lexical immédiat, même thème, mêmes contextes d'usage. |
| 300-700 | Tiède | Sens proche : domaine partagé, association courante. |
| 0-300 | Froid | Relation lointaine, contexte rarement partagé. |
| < 0 | Très froid / opposé | Antonyme ou mot sans relation contextuelle. |
Pourquoi "chien" et "chat" sont proches mais pas "chien" et "voiture"
Voici quelques exemples chiffrés (scores indicatifs basés sur l'expérience de jeu, les valeurs réelles peuvent varier de quelques unités) qui illustrent comment Word2Vec capte la proximité sémantique :
| Paire | Score | Pourquoi |
|---|---|---|
| chien / chien | 1000 | Le mot exact. |
| chien / chat | ≈ 845 | Animaux domestiques, mêmes phrases d'usage. |
| chien / loup | ≈ 762 | Même famille animale, contexte partagé. |
| chien / promenade | ≈ 523 | Action liée à la possession d'un chien. |
| chien / niche | ≈ 480 | Objet associé, sens dérivé. |
| chien / voiture | ≈ -85 | Contextes d'usage très différents. |
Limitations connues du modèle
Word2Vec est puissant mais reste un modèle statistique simple. Ses limites sont importantes à connaître pour comprendre pourquoi certains scores semblent contre-intuitifs :
- Pas de vraie compréhension : l'algorithme ne "sait" pas qu'un chien est un animal. Il fait uniquement des statistiques de cooccurrence.
- Antonymes proches : les couples comme "chaud / froid" ou "jour / nuit" apparaissent dans les mêmes phrases. Le modèle les considère comme proches alors qu'ils sont opposés.
- Polysémie écrasée : un mot comme "vol" (avion ou cambriolage) reçoit un seul vecteur, qui mélange les deux sens. La nuance est perdue.
- Mots rares mal représentés : un mot peu fréquent dans le corpus a un vecteur instable et peu fiable.
- Biais du corpus : le modèle reflète le français du web 2009. Stéréotypes, jargon journalistique, expressions datées : tout est encodé dans les vecteurs.
Cémantix et QuelMot utilisent-ils exactement les mêmes vecteurs ?
Oui. Les deux jeux utilisent les embeddings Fauconnier publics (modèle frWac CBOW 500d). Pour une même paire de mots, le cosinus brut est donc identique des deux côtés. Si vous tapez "chien" alors que le mot du jour est "chat", vous aurez le même score (aux arrondis près) sur Cémantix et sur QuelMot.
La différence ne se joue pas sur l'algorithme mais sur l'écosystème : QuelMot ajoute une app Android, des classements live, des modes alternatifs, des archives consultables et un tutoriel interactif. Si vous trouvez un score différent entre les deux jeux, c'est probablement un mot fléchi (pluriel, conjugaison) traité différemment, ou un bug à signaler.
Questions fréquentes
Word2Vec, Cémantix, QuelMot : 10 questions
Word2Vec est un algorithme d'apprentissage automatique (machine learning) publié par Tomas Mikolov chez Google en 2013. C'est un précurseur des modèles de langage modernes mais beaucoup plus simple : il ne génère pas de texte, il apprend uniquement à représenter chaque mot par un vecteur de nombres.
Pour aller plus loin
- Mikolov et al., 2013 - papier original Word2Vec("Efficient Estimation of Word Representations in Vector Space", arXiv).
- Page Jean-Philippe Fauconnier- embeddings français pré-entraînés sur frWac.
- Wikipedia - Word embedding- article de référence en français.
- Projet WaCky (frWac)- université de Bologne, corpus web utilisé pour l'entraînement.
Tu hésites entre les deux jeux ? Compare QuelMot et Cémantix en détail
Tu veux des stratégies pour gagner ? Lis le guide stratégies Cémantix
Maintenant, à toi de jouer
Mets l'algorithme à l'épreuve sur le mot du jour QuelMot. Gratuit, sans inscription, en français.