C’est quoi les tokens en IA ? La clé pour comprendre comment les IA lisent et pensent

Kamleu Noumi Emeric 21 juin 2026 Intelligence Artificielle, Technologies Laissez un commentaire 1 Vues

Vous avez déjà remarqué que quand vous posez une très longue question à ChatGPT ou à Claude, l’assistant peut parfois « oublier » ce que vous lui avez dit au début de la conversation ? Ou que certains services IA sont gratuits jusqu’à un certain point puis deviennent payants ? Ou encore que quand vous analysez un long document avec une IA, elle vous dit parfois que le texte est « trop long » ? Derrière tout ça se cache un concept fondamental : les tokens.

Un token, c’est l’unité de base avec laquelle les modèles de langage (LLM) lisent, comprennent et produisent du texte. Pas les mots, pas les phrases, pas les caractères. Les tokens. Et comprendre ce concept, c’est comprendre pourquoi l’IA fonctionne comme elle fonctionne : ses limites, ses coûts, et sa façon de « penser ».

Un token, c’est quoi exactement ?

En anglais, un token correspond grosso modo à un mot ou à une partie de mot pour les mots longs. En français, c’est légèrement différent parce que le français a plus d’accents et de variantes. Une approximation courante : 1 token ≈ 4 caractères, ou environ 0,75 mot. En pratique, pour 1 000 mots en français, comptez environ 1 300 à 1 500 tokens.

Des exemples concrets pour comprendre :

Le mot « chat » = 1 token
Le mot « chatbot » = 1 token (c’est un mot courant)
Le mot « incompréhensiblement » = 2 à 3 tokens (mot rare, découpé en sous-mots)
Un smiley 😊 = 1 à 3 tokens
Un nombre « 2026 » = 1 token
Un code source JavaScript peut être très dense en tokens

📐 Règle pratique pour estimer : 1 page A4 de texte français normal ≈ 500-700 tokens. Un roman de 300 pages ≈ 150 000 à 200 000 tokens. Un email professionnel ≈ 100-200 tokens.

Pourquoi les tokens ont un coût

Quand vous utilisez une API d’IA (comme celle d’OpenAI, d’Anthropic ou de Google), vous ne payez pas au temps de calcul. Vous payez aux tokens. Typiquement, le prix est exprimé en dollars par million de tokens pour l’entrée (votre question) et la sortie (la réponse de l’IA).

Modèle	Prix entrée (1M tokens)	Prix sortie (1M tokens)	En clair : 1 000 mots coûtent…
GPT-4.5	$2.50	$10.00	~0,25 à 1 centime (selon sortie)
Claude Sonnet 4.6	$3.00	$15.00	~0,30 à 1,5 centimes
Claude Haiku 4.5	$0.25	$1.25	~0,025 à 0,125 centimes
Gemini 3.5 Flash	$0.075	$0.30	~moins d’un centime

Ces chiffres peuvent paraître ridiculeusement faibles pour un usage personnel. Mais pour une entreprise qui traite des millions de conversations par jour, ça devient vite considérable. C’est pour ça que le choix du modèle IA est une vraie décision économique pour les développeurs.

La fenêtre de contexte : la mémoire de travail de l’IA

Voici le concept qui explique pourquoi votre IA « oublie » parfois ce que vous lui avez dit. La fenêtre de contexte (ou context window), c’est le nombre maximum de tokens qu’un modèle peut traiter en une seule fois : vos messages ET ses réponses précédentes inclus.

Imaginez que le modèle est un scribe très rapide qui lit vos documents sur un bureau. Sa fenêtre de contexte, c’est la taille de ce bureau. Si vos documents sont trop nombreux pour tenir sur le bureau, le scribe doit mettre certains documents de côté et peut « oublier » leur contenu.

GPT-4.5 : ~128 000 tokens de contexte (~95 000 mots, environ un roman entier)
Claude Sonnet 4.6 : ~200 000 tokens (~150 000 mots)
Claude Opus 4.8 : ~200 000 tokens
Gemini 1.5 Pro : 1 000 000 tokens (~750 000 mots, plus de 3 romans)

Tokenisation différente selon les langues

Un point souvent oublié : l’IA n’est pas neutre linguistiquement. La majorité des modèles ont été entraînés majoritairement sur de l’anglais. Résultat : les mots anglais ont tendance à être tokenisés plus efficacement que les mots d’autres langues.

En pratique, un texte en français consomme environ 10 à 30% de tokens de plus que le même texte en anglais pour la même quantité d’information. Ce qui signifie que les utilisateurs non anglophones paient légèrement plus cher pour la même quantité de texte. Un biais structurel que les concepteurs de modèles cherchent à réduire depuis quelques années, notamment avec des modèles multilingues comme les Gemini ou les modèles Mistral français.

Maintenant que vous comprenez les tokens, regardez votre dernière conversation avec une IA. Combien de tokens pensez-vous avoir utilisés ? Savoir que chaque mot a un coût change-t-il votre façon de formuler vos questions ?