Avis : Cémantix est une marque indépendante. Cette page est un guide éditorial neutre sur la technologie Word2Vec utilisée par Cémantix et QuelMot.

Word2Vec expliqué simplement

Comment fonctionne l'algorithme Cémantix - QuelMot ?

Vecteurs, embeddings, corpus frWac : la technologie derrière les jeux sémantiques français.

Cémantix et QuelMot reposent sur la même technologie : Word2Vec, un algorithme entraîné sur le corpus frWac (web français). Cette page explique en français accessible comment il transforme des mots en nombres et calcule la proximité sémantique. Aucune compétence technique requise.

En une phrase

Word2Vec est un algorithme qui transforme chaque mot en un vecteur de nombres : deux mots avec des vecteurs proches sont des mots qui apparaissent dans des contextes similaires, donc sémantiquement liés.

Le concept : représenter les mots comme des vecteurs

Un ordinateur ne "comprend" pas le sens d'un mot comme un humain. Pour pouvoir manipuler du langage, il faut d'abord traduire les mots en quelque chose qu'il sait calculer : des nombres.

La solution proposée par Word2Vec est d'assigner à chaque mot un vecteur, c'est-à-dire une liste ordonnée de nombres. Dans le modèle français Fauconnier utilisé par Cémantix et QuelMot, chaque mot est représenté par un vecteur de 500 dimensions.

chien = [0.21, -0.54, 0.83, 0.12, ..., -0.07]
chat  = [0.30, -0.41, 0.74, 0.15, ..., -0.05]
voiture = [-0.65, 0.22, 0.04, -0.81, ..., 0.42]

L'idée clé : deux mots dont les vecteurs sont proches sont des mots de sens proche. On mesure cette proximité via le cosinus de l'angle entre les deux vecteurs : un cosinus de 1 = vecteurs identiques (mêmes mots), un cosinus de 0 = aucune relation, un cosinus de -1 = vecteurs opposés.

Comment Word2Vec apprend ces vecteurs

Word2Vec part d'un principe linguistique simple, formulé par John Rupert Firth en 1957 : "You shall know a word by the company it keeps" (on connaît un mot à ses fréquentations). En pratique :

  • L'algorithme lit des millions de phrases extraites du web.
  • Pour chaque mot rencontré, il regarde les mots qui apparaissent autour, dans une fenêtre de contexte (typiquement 5 à 10 mots).
  • Exemple : "chien" apparaît souvent près de "aboie", "promenade", "laisse", "chat", "niche".
  • Au fil de l'entraînement (plusieurs passes sur tout le corpus), les vecteurs s'ajustent pour que les mots partageant les mêmes contextes finissent avec des vecteurs proches.

Résultat : les mots qui apparaissent dans les mêmes contextes ont des vecteurs proches, même si l'algorithme n'a jamais reçu de définition de leur sens. C'est purement statistique.

Référence : Mikolov et al., 2013 - "Efficient Estimation of Word Representations in Vector Space". Deux variantes existent : CBOW (utilisée par Cémantix et QuelMot) et Skip-gram.

Le corpus frWac : sur quoi s'entraîne le modèle français

frWac (french Web as Corpus) est un corpus d'environ 1,6 milliard de mots extraits de pages web francophones, collecté en 2009 par l'université de Bologne dans le cadre du projet WaCky. C'est la matière première sur laquelle Word2Vec a été entraîné pour produire les vecteurs français utilisés par Cémantix et QuelMot.

  • Avantage : taille massive, couverture du français courant et littéraire, vocabulaire riche.
  • Limite temporelle : collecte en 2009, donc pas de vocabulaire récent (covid, télétravail, tiktok, woke, etc.).
  • Bruit du web : noms propres, marques, jargon, fautes de frappe. Un filtrage Hunspell réduit ce bruit côté QuelMot pour ne garder que les vrais lemmes français.

Les vecteurs entraînés sur ce corpus ont été publiés en open source par Jean-Philippe Fauconnier (information mentionnée dans le footer Cémantix). Ce sont exactement les mêmes vecteurs que QuelMot utilise pour calculer ses scores.

Pourquoi le score est entre -1000 et 1000

Le calcul brut est un cosinus, donc une valeur mathématique entre -1 (vecteurs opposés) et +1 (vecteurs identiques). Cémantix et QuelMot multiplient ce cosinus par 1000 pour obtenir des entiers plus faciles à lire. Le score 1000 est réservé au mot exact du jour.

ScoreNiveau
1000Mot trouvé
900-999Brûlant
700-900Très chaud
300-700Tiède
0-300Froid
< 0Très froid / opposé

Pourquoi "chien" et "chat" sont proches mais pas "chien" et "voiture"

Voici quelques exemples chiffrés (scores indicatifs basés sur l'expérience de jeu, les valeurs réelles peuvent varier de quelques unités) qui illustrent comment Word2Vec capte la proximité sémantique :

PaireScore
chien / chien1000
chien / chat≈ 845
chien / loup≈ 762
chien / promenade≈ 523
chien / niche≈ 480
chien / voiture≈ -85

Limitations connues du modèle

Word2Vec est puissant mais reste un modèle statistique simple. Ses limites sont importantes à connaître pour comprendre pourquoi certains scores semblent contre-intuitifs :

  • Pas de vraie compréhension : l'algorithme ne "sait" pas qu'un chien est un animal. Il fait uniquement des statistiques de cooccurrence.
  • Antonymes proches : les couples comme "chaud / froid" ou "jour / nuit" apparaissent dans les mêmes phrases. Le modèle les considère comme proches alors qu'ils sont opposés.
  • Polysémie écrasée : un mot comme "vol" (avion ou cambriolage) reçoit un seul vecteur, qui mélange les deux sens. La nuance est perdue.
  • Mots rares mal représentés : un mot peu fréquent dans le corpus a un vecteur instable et peu fiable.
  • Biais du corpus : le modèle reflète le français du web 2009. Stéréotypes, jargon journalistique, expressions datées : tout est encodé dans les vecteurs.

Cémantix et QuelMot utilisent-ils exactement les mêmes vecteurs ?

Oui. Les deux jeux utilisent les embeddings Fauconnier publics (modèle frWac CBOW 500d). Pour une même paire de mots, le cosinus brut est donc identique des deux côtés. Si vous tapez "chien" alors que le mot du jour est "chat", vous aurez le même score (aux arrondis près) sur Cémantix et sur QuelMot.

La différence ne se joue pas sur l'algorithme mais sur l'écosystème : QuelMot ajoute une app Android, des classements live, des modes alternatifs, des archives consultables et un tutoriel interactif. Si vous trouvez un score différent entre les deux jeux, c'est probablement un mot fléchi (pluriel, conjugaison) traité différemment, ou un bug à signaler.

Questions fréquentes

Word2Vec, Cémantix, QuelMot : 10 questions

Word2Vec est un algorithme d'apprentissage automatique (machine learning) publié par Tomas Mikolov chez Google en 2013. C'est un précurseur des modèles de langage modernes mais beaucoup plus simple : il ne génère pas de texte, il apprend uniquement à représenter chaque mot par un vecteur de nombres.

Pour aller plus loin

Tu hésites entre les deux jeux ? Compare QuelMot et Cémantix en détail

Tu veux des stratégies pour gagner ? Lis le guide stratégies Cémantix

Maintenant, à toi de jouer

Mets l'algorithme à l'épreuve sur le mot du jour QuelMot. Gratuit, sans inscription, en français.