Fréquence des lettres en français : les 10 caractères qui dominent 75 % de nos écrits
L’alphabet français compte 26 lettres, mais leur usage quotidien est loin d’être équitable. Certaines occupent le devant de la scène dans presque chaque mot, tandis que d’autres apparaissent rarement. Comprendre cette fréquence d’apparition, un sujet central en linguistique, sert aux cryptographes, aux concepteurs de claviers, aux typographes et aux amateurs de jeux de lettres comme le Scrabble.
A ne pas manquer : on vous a préparé Tableau des fréquences des lettres françaises — c’est gratuit, en fin d’article.
Le classement des fréquences : la domination écrasante de la voyelle « E »
Les analyses de corpus, qu’elles portent sur des œuvres littéraires, des articles de presse ou des bases de données, aboutissent au même résultat : la lettre E domine. Avec une fréquence moyenne proche de 17 %, elle est présente une fois sur six dans un texte standard. Cette omniprésence découle de la structure de la langue française, notamment par les terminaisons féminines, les pluriels et les mots de liaison fréquents comme « le », « de » ou « que ».

Derrière ce géant, le classement des dix premières lettres reste relativement stable.
Classement des 10 lettres les plus fréquentes en français :
| Rang | Lettre | Fréquence approximative |
|---|---|---|
| 1 | E | 17,26 % |
| 2 | A | 8,40 % |
| 3 | S | 8,08 % |
| 4 | I | 7,34 % |
| 5 | N | 7,13 % |
| 6 | T | 7,07 % |
| 7 | R | 6,55 % |
| 8 | L | 6,01 % |
| 9 | U | 5,74 % |
| 10 | D | 4,14 % |
Le podium des voyelles et des consonnes d’appui
Après le « E », les voyelles A et I forment le squelette phonétique de la majorité des syllabes. Le S occupe la troisième place, utilisé pour le pluriel et la conjugaison. Les consonnes comme le N, le T et le R complètent ce groupe des lettres de haute fréquence.
Les lettres rares : le club des marginaux
À l’autre extrémité, les lettres rares comme le W, le K et le Z affichent des fréquences inférieures à 0,1 %. Le « W » et le « K » proviennent souvent de mots d’origine étrangère, comme « wagon » ou « kiwi ». Leur rareté en fait des indices statistiques efficaces pour identifier l’origine d’un texte.
Pourquoi la fréquence varie-t-elle selon les textes ?
Ces pourcentages sont des moyennes calculées sur des corpus massifs. La nature du texte modifie la distribution des lettres. Un manuel technique de mathématiques ne présente pas la même répartition qu’un roman ou un échange sur les réseaux sociaux. L’usage fréquent du pronom « vous » dans un courrier formel augmente par exemple la fréquence du V et du Z.
Dictionnaire versus texte courant : une distorsion majeure
Calculer la fréquence des lettres à partir d’un dictionnaire est une erreur, car celui-ci recense des mots uniques sans tenir compte de leur usage. Dans un texte courant, la répétition des mots de liaison et des verbes comme « être » ou « avoir » nivelle la statistique au profit des lettres du top 10. Les lettres rares comme le X ou le Y apparaissent davantage dans un dictionnaire à cause de la nomenclature technique, mais restent discrètes dans la langue parlée.
L’influence du style et du vocabulaire spécifique
Le style d’un auteur peut biaiser les résultats, mais ces particularités s’estompent avec la loi des grands nombres sur un échantillon suffisant. Le lipogramme, comme dans le roman La Disparition de Georges Perec écrit sans la lettre « E », constitue une exception célèbre. Cette prouesse démontre que le français peut techniquement se passer de sa lettre la plus courante, bien que cela demande un effort rédactionnel immense.
Applications pratiques : du Scrabble à la cryptographie
La connaissance de ces fréquences dépasse le cadre théorique et trouve des applications concrètes.
Le Scrabble et les jeux de lettres
Au Scrabble, la valeur des jetons reflète la rareté des lettres. Le « E » vaut un point, tandis que le « Z » en vaut dix. Les joueurs experts gèrent leur reliquat en conservant des lettres à haute fréquence comme le E, A, S, R, T ou L pour maximiser leurs chances de former des mots longs ou de poser un « Scrabble » au tour suivant.
La cryptanalyse : briser les codes secrets
L’analyse fréquentielle est la base de la cryptographie classique. Depuis les travaux d’Al-Kindi au IXe siècle, on sait qu’il suffit de compter la fréquence des symboles pour briser un message chiffré par substitution. Si un symbole apparaît dans 17 % des cas, il correspond probablement au « E ». Cette méthode reste une étape fondamentale pour comprendre le fonctionnement des systèmes de chiffrement.
L’impact invisible sur la typographie et le design
La fréquence des lettres a influencé la conception des outils d’écriture.
L’organisation des claviers et des casses d’imprimerie
Les typographes rangeaient autrefois les caractères dans des casses d’imprimerie, plaçant les lettres fréquentes au centre pour optimiser la vitesse de composition. La disposition des claviers, de l’AZERTY au BEPO, suit cette logique en favorisant l’alternance des mains et en limitant la fatigue lors de la saisie.
L’évolution historique de la fréquence
La langue française évolue, mais le cœur du système reste d’une grande stabilité. Bien que l’intégration de termes technologiques augmente légèrement la présence de lettres comme le « W », la hiérarchie des fréquences héritée de l’ancien français demeure inchangée.
Comparaison internationale : le français est-il unique ?
Si le « E » est la lettre dominante dans la plupart des langues européennes, les proportions varient. En anglais, le « E » atteint 12 %, contre 17 % en français, tandis qu’en allemand, il dépasse parfois 18 %.
En anglais, le « T » occupe souvent la deuxième place grâce aux articles comme « the ». En espagnol, le « A » talonne le « E » en raison des terminaisons verbales. En italien, la fréquence élevée des voyelles finales donne à la langue sa sonorité particulière. Ces variations illustrent comment l’ADN d’une langue se reflète dans ses unités les plus simples.