Statistiques/Généralités

Un livre de Wikilivres.
Aller à : navigation, rechercher

C'est quoi les statistiques ?[modifier | modifier le wikitexte]

La statistique est une branche des mathématiques appliquées qui a pour objet l'étude des phénomènes mettant en jeu un grand nombre d'éléments. Les statistiques désignent un ensemble de données numériques concernant l'état ou l'évolution d'un phénomène qu'on étudie par la statistique.

La statistique est la science de prise de décisions en face de l'incertitude

La statistique ne se contente pas seulement de décrire un ensemble d'observations (statistique descriptive) , mais également de les interpréter pour aboutir à une prévision ou une décision (statistique inductive). Elle cherche en quelque sorte à maîtriser le hasard.

L'étude statistique[modifier | modifier le wikitexte]

L'étude statistique d'un phénomène donné se décompose en quatre phases :

  1. L'objet de l'étude : Il est indispensable de définir l'objet de l'étude, la population étudiée, le nombre d'observations nécessaires, les méthodes à utiliser pour receuillir les données ...
  2. La collecte des données : Il s'agit de collecter tous les renseignements sur les faits à observer, deux méthodes sont utilisées :
    1. La collecte exhaustive, c'est à dire celle qui concerne tous les éléments du champs d'observation. On parle aussi de recensement.
    2. La collecte partielle, dans ce cas ou on n'a pas les moyens de prospecter tout le domaine d'observation, on effectue alors un échantillonnage. Ce type de collecte nécessite une stratégie particulière pour que l'échantillon soit convenablement représentatif de la totalité du domaine.
  3. Le dépouillement : Il faut ordonner les données recueillies, tout en éliminant celles qui sont suspectes ou non logiques.
  4. La présentation et l'exploitation.

La statistique descriptive[modifier | modifier le wikitexte]

La statistique descriptive a pour but d'analyser les données, de les ordonner et de dégager certaines caractéristiques du domaine observé.
Par définition, l'analyse statistique s'effectue sur un nombre d'individus xi appelés unités statistiques qui forment un ensemble appelé population (P). L'emploi de ces mots se réfère au vocabulaire de la démographie. On note généralement :

P_n = \{x_i\} \,n \, est la taille de la population.

Les unités sont supposées distinctes les unes des autres en fonction d'un ou de plusieurs caractères.
Exemple : Chez la population d'employés d'une entreprise, on peut considérer pour chaque employé : l'âge, le sexe, le salaire, le nombre d'heures de travail ...
Si au lieu de considérer l'ensemble de la population en entier, on considère un sous-ensemble de P (une partie de P) sur lequel on va effectuer des observations. ce sous-ensemble est appelé échantillon. Le nombre d'individus qui le constituent est la taille de cet échantillon.
Exemple : Pour effectuer un sondage de popularité d'une personnalité politique ou d'un footballeur, les médias interrogent un nombre de personnes censées représenter toute la population.
L'échantillonnage peut être subdivisé, selon la méthode de sélection de l'échantillon, en deux types :

  • probabiliste : La sélection est aléatoire (se fait au hasard), c'est à dire que chaque individu a les mêmes chances qu'un autre d'être pris dans l'échantillon. C'est la méthode d'échantillonnage la plus facile à appliquer et la plus couramment utilisée.

Exemple : Dans une grande usine de 5000 employés, on veut mener une enquête sur la qualité des plats servis à la cantine. Pour sélectionner un échantillon de 100 employés, on attribue un numéro à chaque individu de 1 à 5000, on utilise ensuite une table de numéros générés au hasard dans cet intervalle (voir Générateur de nombres aléatoires).

  • non probabiliste : Dans ce cas on est contraint à choisir arbitrairement les unités qui constituent l'échantillon. Bien qu'il présente un certain nombre d'inconvénients, ce type d'échantillonnage est utile dans certaines situations, tel que le domaine des sciences sociales ou les essais de produits pharmaceutiques.

Exemples : Les 100 premiers clients à entrer dans un magasin, 10 individus qui se présentent volontairement pour le test d'un nouveau médicament ...

L'erreur d'échantillonnage peut être estimée mathématiquement. C'est le degré de variation qui existe entre les estimations établies à partir des différents échantillons possibles. Si l'erreur est importante, on parle de biais. Dans ce cas, l'échantillon biaisé ne représente pas la population dont il est issu.

Les types de caractères[modifier | modifier le wikitexte]

Un caractère étudié peut être soit qualitatif, soit quantitatif (appelé aussi variable). On parlera alors de modalités d'un caractère qualitatif et des valeurs d'une variable.

  1. Le caractère qualitatif : C'est un caractère qui ne peut être mesuré ni repéré par un nombre. Les modalités du caractère qualitatif rangent les unités de la population étudiée en catégories. Tout individu appartient, sans ambiguïté à une seule catégorie.
    Exemple: le sexe, la couleur des cheveux, le pays d'origine ...
  2. Le caractère quantitatif : C'est un caractère qui peut être mesuré et repéré par un nombre.
    Exemple: la taille et le poids d'un individu, l'âge, le montant du salaire ...
    La variable peut être de deux natures :
    1. variable discontinue ou discrète: si elle ne peut prendre que des valeurs isolées, souvent entières, dans l'intervalle où elle varie.
      Exemple: Le nombre d'enfants dans une famille (il n'y a pas de ½ enfant!), le nombre d'élèves dans une classe de CM1 ...
    2. variable continue: si elle peut prendre n'importe quelle valeur dans l'intervalle.
      Exemple: La taille, le poids, la température ...

Les échelles de mesure[modifier | modifier le wikitexte]

Pour chaque type de caractère il existe une échelle de mesure faisant appel à la notion de modalité pour un caractère qualitatif et à la notion de valeur pour un caractère quantitatif. A partir des notions d'ordre et de distance, on distingue quatre types d'échelles de mesure :

  1. Les échelles qualitatives :
    1. Un caractère est dit nominal lorsque les seules relations que l'on peut établir entre les différentes modalités sont des relations d'équivalence ou de différence. Une échelle nominale consiste à attribuer un numéro à des individus dans le but de les distinguer.
      Exemple : numéro de sécurité sociale, code postal ...
    2. Un caractère est dit ordinal lorsqu'en plus des relations d'équivalence on peut établir des relations d'ordre. L'ensemble des modalités peut être rangé dans un ordre croissant ou décroissant. Les différences entre deux rangs successifs ou les rapports n'ont pas de signification.
      Exemple : mention obtenue au baccalauréat = {passable, bien, assez bien...}, type de revenu mensuel = {faible , moyen , élevé} ...
  2. Les échelles quantitatives:
    1. Pour la variable d'intervalle, une notion de distance est définie en plus d'une relation d'ordre.
      Exemple : température, latitude, longitude ...
      Le rapport de deux intervalles est indépendant de l'unité de mesure et de l'origine (le zéro est arbitraire).
      Exemple : On sait que la température est mesurée en degré dans les échelles de Celsius (C) ou de Fahrenheit (F). Les origines des deux échelles ne coïncident pas puisque 0°C = 32°F. La formule de conversion est : ^\circ F = ^\circ C \times 1,8 + 32
      Observez les données suivantes :
      Mesure Température en °C Température en °F
      1 5 41
      2 10 50
      3 15 59

      Vous remarquez que entre les deux échelles, les rapports ne sont pas conservés : (\frac{T_2}{T_1})_{^\circ C} \neq (\frac{T_2}{T_1})_{^\circ F}
      Par contre, le rapport des différences reste constant : (\frac{T_3-T_1}{T_2-T_1})_{^\circ C} = (\frac{T_3-T_1}{T_2-T_1})_{^\circ F} = 2

    2. Pour la variable de rapport, le rapport entre deux valeurs a un sens. Il est indépendant de l'unité de mesure. Il existe une origine naturelle et absolue (le zéro a une signification précise, puisqu'il désigne l'absence du caractère considéré).
      Exemple : vitesse, taille, poids ...
      Les deux échelles de poids en grammes (g), ou en livres (lb) possèdent une origine absolue : 0 g = 0 lb. Les poids de trois objets sont donnés en g et en lb :
      Objet Poids en g Poids en lb
      1 200 0,44
      2 500 1,1
      3 1000 2,2

      Vous remarquez que même si on change d'échelle, les rapports entre les poids des objets (1) et (2) restent constants : (\frac{P_2}{P_1})_{g} = (\frac{P_2}{P_1})_{lb} = 2,5
      De même que les rapports des différences sont identiques. En d'autres termes, l'objet (3) reste 5 fois plus lourd que l'objet (1), que leurs poids soient exprimés en g ou en lb.

Les séries statistiques univariées[modifier | modifier le wikitexte]

Une distribution statistique indique la présentation des individus selon la valeur du caractère. Dans ce qui suit, on va décrire et représenter des distributions à un caractère. On parle aussi de série statistique monodimensionnelle ou univariée.

Caractère qualitatif[modifier | modifier le wikitexte]

  • Présentation sous forme de tableaux : On représente la distribution observée sous la forme d'un tableau statistique à deux colonnes ou à deux lignes, l'une indique la nomenclature, l'autre le nombre d'unités statistiques (l'effectif) de chaque modalité. Soit k \, le nombre de modalités différentes : x_1, ... x_i, ... x_k \, et n_1, ... n_i, ...n_k \, le nombre d'éléments correpondants à chaque modalité. On obtient alors le tableau statistique suivant :
Nomenclature (les modalités) Nombre d'unités (l'effectif) Fréquence
x_1 \, n_1 \, f_1 \,
... ... ...
x_i \, n_i \, f_i \,
... ... ...
x_k \, n_k \, f_n \,
Total n = \sum_{i=1}^k n_i = n_1+...+n_i+...+n_k f \,

n_i\, est l'effectif, ou la fréquence absolue, correspondant à la modalité x_i\, du caractère étudié. La somme des effectifs, notée par n\,, s'appelle l'effectif total.
On définit la fréquence relative f_i\, par la proportion des individus qui présentent le caractère x_i\, par rapport à l'effectif total. Cette fréquence peut-être exprimée soit par un nombre décimal (0,3), soit par un pourcentage (30%).
La somme des fréquences relatives est appelé fréquence totale :

f = \sum_{i=1}^k f_i = f_1+...+f_i+...+f_k= 1


Toute fréquence relative est comprise entre 0 et 1 ( 0 \leqslant f_i \leqslant 1  \,).

Exemple : Le relevé des cas de tuberculose dans quelques hôpitaux Tunisiens (source: Bulletin National Epidémiologique, 2004).

Ville Effectif Fréquence
Ariana 112 0,14
Bizerte 146 0,18
Gabès 54 0,07
Tunis 294 0,37
Sfax 158 0,20
Siliana 25 0,03
Total 789 1
  • Présentation sous forme graphique : La présentation graphique des données permet de donner une image simple et claire qui rend plus facile l'interprétation des résultats par un "coup d'oeil". Les types de présentation les plus courantes sont les diagrammes à barres (ou en tuyaux d'orgue) et les Diagrammes circulaires à secteurs (ou en "Camembert").

Exemple: Le tableau précédant est repris avec une présentation graphique, en diagramme à barres (à gauche) ou en "Camembert" (à droite).

Digramstat-fr.PNG

Caractère quantitatif[modifier | modifier le wikitexte]

Associée à tout caractère quantitatif, une variable statistique peut être discrète ou continue. Nous allons donc étudier les deux cas :

  1. Caractère discret
    1. Présentation sous forme de tableaux : On représente les données sous forme de tableau statistique analogue à celui obtenu pour un caractère qualitatif. Soit k \, le nombre de valeurs possibles du caractère étudié. Pour chaque valeur x_i \, correspond le nombre d'individus n_i \, possédant cette valeur du caractère (effectif). Par convention, les valeurs sont toujours rangées par ordre croissant.
      Le tableau sera donc sous la forme :
      Valeur du caractère Nombre d'unités (l'effectif) Fréquence
      x_1 \, n_1 \, f_1 \,
      ... ... ...
      x_i \, n_i \, f_i \,
      ... ... ...
      x_k \, n_k \, f_n \,
      Total n = \sum_{i=1}^k n_i f = \sum_{i=1}^k f_i = 1

      Exemple : Familles selon le nombre d'enfants, âgés de 0 à 18 ans, en France (source : Insee - Recensement de la population, 1999 [1])

      Nombre d'enfants Nombre de familles Fréquence
      0 8 678 858 0,54
      1 3 317 094 0,21
      2 2 771 784 0,17
      3 1 007 563 0,06
      4 230 279 0,01
      5 61 615 0,004
      6 29 589 0,002
      Total 16 096 782 1
    2. Présentation sous forme de graphique : La représentation graphique des fréquences (ou des effectifs) d'une distribution statistique d'une variable discrète est du type diagramme en batôns ou en tuyaux d'orgue. Le diagramme est constitué par des batôns dont la longueur est proportionnelle aux fréquences correpondants aux variables représentées sur l'axe des abscisses. Si l'on joint les extrémités des batôns, on obtient le polygone des fréquences.
      Exemple : Les données du tableau précédent sont représentées sur un graphe en batôns.
      Diagrambatons-fr.svg
  2. Caractère continu :
    1. Présentation sous forme de tableaux : Pour construire un tableau statistique, il faut effectuer une réduction des données. Pour cela, il faut prendre la différence entre la plus grande et la plus petites des valeurs observées qu'on partage en classes. On désigne alors par effectif le nombre d'unités statistiques de chaque classe.
      Le tableau statistique se présente sous la forme :
      Classe Effectif Centre Amplitude Fréquence
      [e_1 ; e_2[ \, n_1 \, c_1 \, a_1 \, f_1 \,
      ... ... ... ... ...
      [e_i ; e_{i+1}[ \, n_i \, c_i \, a_i \, f_i \,
      ... ... ... ... ...
      [e_k ; e_{k+1}[ \, n_k \, c_k \, a_k \, f_k \,
      Somme n \, - - 1

      Observons ce tableau :

      • [e_i ; e_{i+1}[ \, sont les intervalles ou classes. e_i \, est la borne inférieure de l'intervalle, e_{i+1} \, est la borne supérieure de l'intervalle. Par convention, un intervalle de classe est fermé à gauche et ouvert à droite.

      Exemple: L'intervalle de classe [0 ; 200[ est désigné par "les valeurs de 0 à moins de 200". C'est à dire que 200 ne sera pas intégrée dans cette classe.

      • n_i \, est le nombre d'observations tombant dans la même classe.

      Exemple: Le nombre d'employés ayant un salaire de 700 à moins de 1000 €, est de 26.

      • La valeur absolue de la différence entre e_i \, et e_{i+1} \, est appelée amplitude, notée par a_i \,.
      • On appelle centre de classe, c_i \,, la demi-somme des extrémités de l'intervalle [e_i ; e_{i+1}[ \,.

      Exemple: Pour la classe [400 ; 500[, l'amplitude = 500 - 400 = 100. Le centre = (500 + 400)/2 = 450.

      • Comme pour le caractère discret, on définit l'effectif total n \,, les fréquences correspondantes à chaque classe et la fréquence totale.

      Exemple: à compléter.

    2. Présentation sous forme de graphique : La représentation graphique des fréquences / des effectifs d'une ditribution statistique d'une variable continue s'appelle histogramme. La population d'une classe est repésentée sous forme d'un rectangle dont la surface est proportionnelle à sa fréquence / effectif.
      • Lorsque les classes sont d'amplitudes égales, la hauteur du rectangle est proportionnelle à la fréquence / effectif.
      • Lorsque les classes sont d'amplitudes inégales, il faut procéder au calcul des fréquences / effectifs corrigés pour assurer leur proportionnalité par rapport aux aires des rectangles correspondants. On prend généralement l'amplitude la plus faible comme valeur de référence.
      Si l'on désigne par n_i \, l'effectif de la classe i, a_i \, son amplitude et a_0 \, l'amplitude de référence, l'effectif corrigé n_{ci} \, sera donné par :
      n_{ci} = \frac{n_i}{a_i} \times a_0 \,
      on utilisant les fréquences, on obtient la fréquence corrigée :
      f_{ci} = \frac{f_i}{a_i} \times a_0 \,
      • On peut tracer le polygone des fréquences / effectifs en joignant par des segments de droite, les milieu des côtés supérieurs des rectangles de l'histogramme. Le polygone des fréquences permet ainsi d'évaluer visuellement le poids de chaque classe représenté par son centre.
      Exemple: à compléter.
      • Choix du nombre de classes: Le regroupement en classes présente une part de subjectivité. En effet, aucune loi mathématique ne permet de déterminer avec exactitude le nombre de classes à représenter. Il faut noter que ce nombre ne doit pas être ni trop grand, ni trop petit. Car tout regroupement entraîne inévitablement une perte de l'information.
      Divers formules empririques permettent de calculer le nombre de classes k \, de même amplitude pour un nombre d'observations n \,. Nous citerons ici la règle de Sturge :
      k = 1 + \frac{10}{3} \times \log{n} \,
      Ainsi que la règle de Yule :
      k = \frac{5}{2} \times \sqrt[4]{n} = 2,5 \times n^{0,25} \,
      • Choix des valeurs limites des classes: Il est souhaitable que les limites des classes comportent une décimale de plus que les valeurs des observations.
      • Choix des étendues des classes: L'étendue d'une distribution E \, est la différence entre la valeur maximale et la valeur minimale du caractère étudié. L'étendue élémentaire des classes (ou largeur des intervalles) sera telle que :
      h = \frac{E}{j} \,
      j \, est l'entier la plus proche de k \,.
      Exemple: à compléter.

Effectifs et Fréquences cumulées[modifier | modifier le wikitexte]


Cours de statistiques