Suivre le cours complet
 
L'analyse lexicale : la loi de ZIPF
 
Analyse
Notions d'analyse
3 niveaux pour connaître
Analyse de langage
  Analyse de langage
Linguistique
Ferdinand de Saussure
Chomsky
Définitions sémantiques
Sens des mots
Trois niveaux

Langage non conscient
Langage et prévisions

Analyse lexicale
Loi de Zipf
Langage et redondance
Analyse thématique
Une thématique objective
Analyse syntaxique
L'analyse d'un graphe
Les cartes mentales
Les associations verbales
Le non Dit
Analyse relationnelle
 

Les 6 critères
Contenu et Relation
Les axiomes de Palo Alto
Critères de hiérarchie
Paix et Guerre
Carte et Territoire
La sémantique générale
Je - Tu - Nous
Satisfait ou non
Analyse croisée
Analyse diachronique

Anacip agent intelligent
  Lexique automatique
les boîtes thématiques
Comparaisons et indices
Prévisions et évolutions
Applications
  Vie quotidienne
Audit d'entreprise
Formation à la vente
Relation clients
Le modèle Pharma
Téléchargement
 

Les études de langage
Le Qumié
Démo PowerPoint

marqueur eStat'Perso

Fréquence x Rang => Constante
Que signifie cette formule barbare ? Imaginons que nous ayons compté tous les mots significatifs d'un ensemble de textes, et que nous les ayons classés par ordre d'occurrences décroissant.
Chaque mot possèdera alors un rang (sa place dans le classement) et une fréquence (le nombre de fois où on l'a trouvé dans les textes).
Et bien, quand la loi de ZIPF se vérifie (et elle se vérifie à condition d'avoir gardé tous les mots, même les mots-outils et de posséder un corpus assez grand d'environ 500000 mots), nous avons, à peu près les résultats suivants:
Rang
Mot
Fréquence
R x F
1
Je
500
500
2
Banque
225
500
3
Banquier
150
450
4
Guichet
115
460
...
...
...
500
fourmi
1
500

A quoi peut bien servir la loi de Zipf ? Tout simplement à déterminer statistiquement le nombre de MOTS-CLES que l'on doit étudier.

Nos calculs personnels ont montré, en enlevant les mots outils et les mots trop redondants que nous avions le tableau suivant dans presque toutes les études lexicales :

% occurrences
% cumulé de mots
70 %
10 %
90 %
20 %

Que signifie ce tableau : qu'en prenant les 10% des mots du lexique les plus fréquents, nous arrivons déjà à 70% du nombre total des occurrences ? Avec 20% des mots, nous couvrons 90% des occurrences.
Est-il alors vraiment utile de nous préoccuper et d'étudier les 80% des mots du lexique qui, à eux tous, ne font que 10% des occurences.


Note : nous rappelons le sens du mot "occurrence" = "Nombre de fois où un mot est trouvé dans un ensemble de textes".

 

Citations
Les lexiques des sujets étudiés semblent posséder leurs propres lois internes. La fréquence des mots du lexique n'est pas le fait du hasard.

 

Le lexique est un ensemble de mots structurés autour de certains d'entre eux, en quelque sorte les mots "dominants" de la meute.
Ce sont ces mots dominants qui sont les plus fréquents, et qui représentent à eux seuls certains thèmes de l'étude.
On les appelle les MOTS-THEMES.