Ignorer la navigation

Indicateurs statistiques

Vocabulaire des statistiques à une variable.

Lorsqu'on organise des données en fonction d'une variable (taille, durée, longueur, etc.), on on crée un tableau statistique à une variable. C'est la signification des histogrammes ou "diagrammes en barres": on organise les variables de la plus petite à la plus grande, puis on compte la population à chaque variable.

Organiser les données de la sorte permettent de déterminer et calculer les indicateurs statistiques. Les indicateurs statistiques sont des valeurs qui permettent d'obtenir de l'information rapidement à partir d'un grand nombre de données. On peut en distinguer deux types:

  1. ceux qu'on trouve dans les données elles-mêmes

Le mode, les classes, la classe modale, la médiane et les quartiles.

  1. ceux qu'on calcule

La moyenne, l'écart type et l'intervalle de confiance.

Variable, population, mode et classes

Une variable est une qualité quantitative - une qualité à laquelle on peut associer un nombre.

Une taille, une note à un examen, un nombre de points marqués sont des variables quantitatives. Une couleur préférée ou une préférence politique sont des variables qualitatives mais, en leur assignant un nombre, on peut les transformer en variable quantitative.

Lorsqu'on organise des données statistiques, on place d'abord les variables sur l'axe des abscisses dans un ordre précis (du plus petit au plus grand, ou l'inverse). On parle alors d'une série statistique. Ensuite, on compte pour chaque variable le nombre de fois n qu'elle apparaît dans les données. La somme totale des données (dénommée population) est symbolisée par la lettre N.

Mode et classe modaleOn peut alors créer un histogramme qui permet de visualiser les données et repérer les premiers indicateurs statistiques.

Le mode est la variable pour laquelle n est le plus grand - la variable pour laquelle la population est la plus grande.

Si on regroupe les variables en classes, c'est à dire en groupes de variables délimités, la classe pour laquelle la population est la plus grande s'appelle la classe modale.

On peut voir l'intérêt de regrouper des données en classes avec l'exemple ci-contre. Si des notes a un examen sont représentées par l'histogramme, on voit que beaucoup d'élèves ont eu un six, ce qui est déjà une raison de s'inquiéter. Par contre, en regroupant les mêmes notes en classe, on voit qu'en fait beaucoup d'élèves ont eu cinq ou moins, ce qui rendrait l'inquiétude urgente.

Médiane et quartiles

MédianeLa médiane est un concept simple à comprendre, mais qui peut prêter à confusion. Si on demandait à un groupe de s'aligner le long d'un mur du plus petit au plus grand, la médiane serait la variable correspondant à la personne se trouvant au milieu du mur. En d'autres termes, la médiane est la variable pour laquelle il y a autant de valeurs inférieures à elle que de valeurs supérieures.

Si la population entière est un chiffre impair, la médiane est la variable correspondant à la donnée de rang n telle que:

Médiane

n = \frac{N+1}{2}

Si la population entière est un chiffre pair, la médiane est la moyenne entre les variables au rang N/2 et au rang N/2 + 1.

Dans l'exemple ci-contre, la population est égale à 31, ce qui signifie que la médiane se trouve au rang 16. On voit qu'à ce rend correspond une variable égale à 9, ce qui signifie que la médiane est égale à 9.

QuartilesLes quartiles sont les quatre quarts des données:

  1. le premier quartile représente la variable au premier quart des données
  2. le second quartile représente la moitié des données: c'est la médiane
  3. le troisième quartile est la variable au trois quart des données
  4. l'étendue est l'écart entre la plus haute variable dans les données et la plus basse

On regroupe souvent ces indicateurs statistiques dans un diagramme en "boîte à moustache". La largeur et la position de la boîte indique si les données sont regroupées autour d'une variable ou dispersées entre deux variables lointaines.

Moyenne et écart type

La moyenne est une valeur qui permet de tirer certaines conclusions de données. Elle est définie comme étant la somme des produits de chaque variable avec leur population, divisée par la population entière.

Moyenne statistique

\bar{x} = \frac{\sum{n_i x_i}}{N}

Plus clairement: pour la calculer, on multiplie chaque variable par sa population, on fait la somme et on la divise par la population entière.

La moyenne n'est cependant pas un indicateur statistique fiable. En effet, si un élève avait un 5 et un 15 comme notes, il aurait dix de moyenne - mais le fait qu'il a eu un cinq démontre qu'il lui manque beaucoup de connaissances, ce qui pourrait poser problème plus tard.

L'écart interquartile (la différence entre le troisième quartile et le premier quartile) permet de déterminer si les valeurs sont regroupées autour de la moyenne ou si elles sont éparpillées entre deux valeurs très différentes. Le diagramme en boîte à moustache permet d'estimer cette distribution d'un coup d'oeil.

Ecart typeParfois, il n'est pas possible ou pratique de trouver les quartiles dans une série de données. On définit alors l'écart type σ, qui est la moyenne des écarts entre chaque donnée et la moyenne. L'écart type est donné par les fonctions statistiques de toutes les calculatrices scientifiques et par les logiciels de bases de données (ou tableurs).

L'écart type permet alors de calculer l'intervalle de confiance. Il en existe plusieurs, mais on admet en général un intervalle de deux sigma (2σ), qui nous assure que 95% des données tombent dans cette intervalle.

Intervalle de confiance

\bar{x} \pm 2 \sigma