Que signifie cette formule barbare ? Imaginons que
nous ayons compté tous les mots significatifs d'un
ensemble de textes, et que nous les ayons classés
par ordre d'occurrences décroissant.
Chaque mot possèdera alors un rang (sa place dans
le classement) et une fréquence (le nombre de fois
où on l'a trouvé dans les textes).
Et bien, quand la loi de ZIPF se vérifie (et elle
se vérifie à condition d'avoir gardé
tous les mots, même les mots-outils et de posséder
un corpus assez grand d'environ 500000 mots), nous avons,
à peu près les résultats suivants:
|
Rang
|
Mot
|
Fréquence
|
R x
F
|
|
1
|
Je |
500
|
500
|
|
2
|
Banque |
225
|
500
|
|
3
|
Banquier |
150
|
450
|
|
4
|
Guichet |
115
|
460
|
|
...
|
|
...
|
...
|
|
500
|
fourmi |
1
|
500
|
A quoi peut bien servir la loi de Zipf
? Tout simplement à déterminer statistiquement
le nombre de MOTS-CLES que l'on doit étudier.
Nos calculs personnels ont montré, en enlevant
les mots outils et les mots trop redondants que nous
avions le tableau suivant dans presque toutes les études
lexicales :
|
% occurrences
|
% cumulé
de mots
|
|
70 %
|
10 %
|
|
90 %
|
20 %
|
Que signifie ce tableau : qu'en prenant
les 10% des mots du lexique les plus fréquents,
nous arrivons déjà à 70% du nombre
total des occurrences ? Avec 20% des mots, nous couvrons
90% des occurrences.
Est-il alors vraiment utile de nous préoccuper
et d'étudier les 80% des mots du lexique qui,
à eux tous, ne font que 10% des occurences.
Note
: nous rappelons le sens du mot "occurrence"
= "Nombre de fois où un mot est trouvé
dans un ensemble de textes".
|