Pourquoi "chien" et "chat" donnent un score élevé ?

Parce que ces deux mots apparaissent souvent dans les mêmes phrases du corpus d'entraînement (animaux domestiques, vétérinaire, foyer, etc.). Word2Vec ne sait pas qu'un chien et un chat sont des animaux, il sait juste qu'ils ont des contextes d'apparition similaires. Résultat : leurs vecteurs deviennent proches, donc le cosinus est élevé.

L'algorithme connaît-il tous les mots français ?

Non. Le vocabulaire de Cémantix et QuelMot est limité aux mots qui apparaissent suffisamment dans le corpus frWac (web français de 2009). Cela représente environ 90 000 lemmes après filtrage Hunspell. Les mots très rares, les noms propres récents et la plupart des néologismes sont absents.

Pourquoi certains mots récents donnent des scores bizarres ?

Le corpus frWac a été collecté en 2009. Des termes apparus depuis (covid, télétravail, tiktok, vegan, etc.) ne sont pas représentés ou très mal représentés. Le modèle ne s'auto-met pas à jour : il faudrait ré-entraîner sur un corpus récent pour en tenir compte.

Le modèle évolue-t-il avec le temps ?

Non. Une fois Word2Vec entraîné sur un corpus, les vecteurs sont figés. C'est pour cela que Cémantix et QuelMot donnent les mêmes scores aujourd'hui qu'il y a un an pour une même paire de mots : le modèle est statique.

Comment Cémantix choisit le mot du jour ?

Cémantix dispose d'une liste de mots secrets gérée manuellement (lemmes courants : noms communs au singulier, infinitifs, adjectifs au masculin singulier). QuelMot fonctionne sur le même principe avec sa propre file (word_queue) et sa propre rotation à minuit Europe/Paris (mot disponible aux joueurs à 12h).

Word2Vec vs ChatGPT, c'est la même chose ?

Non. ChatGPT et les grands modèles de langage (LLM) actuels sont basés sur des architectures Transformer et génèrent du texte token par token. Word2Vec est uniquement un modèle d'embeddings statiques : un mot = un vecteur fixe, sans notion de contexte de phrase. Word2Vec a été un précurseur historique des LLM modernes.

Pourquoi le score est-il entre -1000 et 1000 ?

Le calcul brut est un cosinus entre deux vecteurs : il varie mathématiquement entre -1 (opposés) et +1 (identiques). Cémantix et QuelMot multiplient par 1000 pour la lisibilité (entiers plus faciles à lire que des décimales). 1000 est réservé au mot exact du jour.

Y a-t-il un meilleur algorithme que Word2Vec ?

Pour la qualité brute des embeddings statiques français, FastText et les embeddings issus de modèles Transformer (BERT, CamemBERT) font mieux sur certains benchmarks. Mais Word2Vec a l'avantage d'être léger, rapide et historiquement validé pour ce type de jeu. C'est aussi la référence Cémantix, donc tout changement casserait la cohérence avec l'écosystème.

Avis : Cémantix est une marque indépendante. Cette page est un guide éditorial neutre sur la technologie Word2Vec utilisée par Cémantix et QuelMot.

Word2Vec expliqué simplement

Comment fonctionne l'algorithme Cémantix - QuelMot ?

Vecteurs, embeddings, corpus frWac : la technologie derrière les jeux sémantiques français.

Cémantix et QuelMot reposent sur la même technologie : Word2Vec, un algorithme entraîné sur le corpus frWac (web français). Cette page explique en français accessible comment il transforme des mots en nombres et calcule la proximité sémantique. Aucune compétence technique requise.

En une phrase

Word2Vec est un algorithme qui transforme chaque mot en un vecteur de nombres : deux mots avec des vecteurs proches sont des mots qui apparaissent dans des contextes similaires, donc sémantiquement liés.

Le concept : représenter les mots comme des vecteurs

Un ordinateur ne "comprend" pas le sens d'un mot comme un humain. Pour pouvoir manipuler du langage, il faut d'abord traduire les mots en quelque chose qu'il sait calculer : des nombres.

La solution proposée par Word2Vec est d'assigner à chaque mot un vecteur, c'est-à-dire une liste ordonnée de nombres. Dans le modèle français Fauconnier utilisé par Cémantix et QuelMot, chaque mot est représenté par un vecteur de 500 dimensions.

chien = [0.21, -0.54, 0.83, 0.12, ..., -0.07]

chat = [0.30, -0.41, 0.74, 0.15, ..., -0.05]

voiture = [-0.65, 0.22, 0.04, -0.81, ..., 0.42]

L'idée clé : deux mots dont les vecteurs sont proches sont des mots de sens proche. On mesure cette proximité via le cosinus de l'angle entre les deux vecteurs : un cosinus de 1 = vecteurs identiques (mêmes mots), un cosinus de 0 = aucune relation, un cosinus de -1 = vecteurs opposés.

Comment Word2Vec apprend ces vecteurs

Word2Vec part d'un principe linguistique simple, formulé par John Rupert Firth en 1957 : "You shall know a word by the company it keeps" (on connaît un mot à ses fréquentations). En pratique :

L'algorithme lit des millions de phrases extraites du web.
Pour chaque mot rencontré, il regarde les mots qui apparaissent autour, dans une fenêtre de contexte (typiquement 5 à 10 mots).
Exemple : "chien" apparaît souvent près de "aboie", "promenade", "laisse", "chat", "niche".
Au fil de l'entraînement (plusieurs passes sur tout le corpus), les vecteurs s'ajustent pour que les mots partageant les mêmes contextes finissent avec des vecteurs proches.

Résultat : les mots qui apparaissent dans les mêmes contextes ont des vecteurs proches, même si l'algorithme n'a jamais reçu de définition de leur sens. C'est purement statistique.

Référence : Mikolov et al., 2013 - "Efficient Estimation of Word Representations in Vector Space". Deux variantes existent : CBOW (utilisée par Cémantix et QuelMot) et Skip-gram.

Le corpus frWac : sur quoi s'entraîne le modèle français

frWac (french Web as Corpus) est un corpus d'environ 1,6 milliard de mots extraits de pages web francophones, collecté en 2009 par l'université de Bologne dans le cadre du projet WaCky. C'est la matière première sur laquelle Word2Vec a été entraîné pour produire les vecteurs français utilisés par Cémantix et QuelMot.

Avantage : taille massive, couverture du français courant et littéraire, vocabulaire riche.
Limite temporelle : collecte en 2009, donc pas de vocabulaire récent (covid, télétravail, tiktok, woke, etc.).
Bruit du web : noms propres, marques, jargon, fautes de frappe. Un filtrage Hunspell réduit ce bruit côté QuelMot pour ne garder que les vrais lemmes français.

Les vecteurs entraînés sur ce corpus ont été publiés en open source par Jean-Philippe Fauconnier (information mentionnée dans le footer Cémantix). Ce sont exactement les mêmes vecteurs que QuelMot utilise pour calculer ses scores.

Pourquoi le score est entre -1000 et 1000

Le calcul brut est un cosinus, donc une valeur mathématique entre -1 (vecteurs opposés) et +1 (vecteurs identiques). Cémantix et QuelMot multiplient ce cosinus par 1000 pour obtenir des entiers plus faciles à lire. Le score 1000 est réservé au mot exact du jour.

Score	Niveau	Interprétation
1000	Mot trouvé	Le score maximum, atteint uniquement par le mot exact du jour.
900-999	Brûlant	Synonyme direct ou variation très proche du mot secret.
700-900	Très chaud	Champ lexical immédiat, même thème, mêmes contextes d'usage.
300-700	Tiède	Sens proche : domaine partagé, association courante.
0-300	Froid	Relation lointaine, contexte rarement partagé.
< 0	Très froid / opposé	Antonyme ou mot sans relation contextuelle.

Pourquoi "chien" et "chat" sont proches mais pas "chien" et "voiture"

Voici quelques exemples chiffrés (scores indicatifs basés sur l'expérience de jeu, les valeurs réelles peuvent varier de quelques unités) qui illustrent comment Word2Vec capte la proximité sémantique :

Paire	Score	Pourquoi
chien / chien	1000	Le mot exact.
chien / chat	≈ 845	Animaux domestiques, mêmes phrases d'usage.
chien / loup	≈ 762	Même famille animale, contexte partagé.
chien / promenade	≈ 523	Action liée à la possession d'un chien.
chien / niche	≈ 480	Objet associé, sens dérivé.
chien / voiture	≈ -85	Contextes d'usage très différents.

Limitations connues du modèle

Word2Vec est puissant mais reste un modèle statistique simple. Ses limites sont importantes à connaître pour comprendre pourquoi certains scores semblent contre-intuitifs :

Pas de vraie compréhension : l'algorithme ne "sait" pas qu'un chien est un animal. Il fait uniquement des statistiques de cooccurrence.
Antonymes proches : les couples comme "chaud / froid" ou "jour / nuit" apparaissent dans les mêmes phrases. Le modèle les considère comme proches alors qu'ils sont opposés.
Polysémie écrasée : un mot comme "vol" (avion ou cambriolage) reçoit un seul vecteur, qui mélange les deux sens. La nuance est perdue.
Mots rares mal représentés : un mot peu fréquent dans le corpus a un vecteur instable et peu fiable.
Biais du corpus : le modèle reflète le français du web 2009. Stéréotypes, jargon journalistique, expressions datées : tout est encodé dans les vecteurs.

Cémantix et QuelMot utilisent-ils exactement les mêmes vecteurs ?

Oui. Les deux jeux utilisent les embeddings Fauconnier publics (modèle frWac CBOW 500d). Pour une même paire de mots, le cosinus brut est donc identique des deux côtés. Si vous tapez "chien" alors que le mot du jour est "chat", vous aurez le même score (aux arrondis près) sur Cémantix et sur QuelMot.

La différence ne se joue pas sur l'algorithme mais sur l'écosystème : QuelMot ajoute une app Android, des classements live, des modes alternatifs, des archives consultables et un tutoriel interactif. Si vous trouvez un score différent entre les deux jeux, c'est probablement un mot fléchi (pluriel, conjugaison) traité différemment, ou un bug à signaler.

Questions fréquentes

Word2Vec, Cémantix, QuelMot : 10 questions

Word2Vec est un algorithme d'apprentissage automatique (machine learning) publié par Tomas Mikolov chez Google en 2013. C'est un précurseur des modèles de langage modernes mais beaucoup plus simple : il ne génère pas de texte, il apprend uniquement à représenter chaque mot par un vecteur de nombres.

Pour aller plus loin

Mikolov et al., 2013 - papier original Word2Vec("Efficient Estimation of Word Representations in Vector Space", arXiv).
Page Jean-Philippe Fauconnier- embeddings français pré-entraînés sur frWac.
Wikipedia - Word embedding- article de référence en français.
Projet WaCky (frWac)- université de Bologne, corpus web utilisé pour l'entraînement.

Tu hésites entre les deux jeux ? Compare QuelMot et Cémantix en détail

Tu veux des stratégies pour gagner ? Lis le guide stratégies Cémantix

Maintenant, à toi de jouer

Mets l'algorithme à l'épreuve sur le mot du jour QuelMot. Gratuit, sans inscription, en français.

Essayer QuelMot Voir le comparatif