Lorsqu’on dispose d’un échantillon de données, il est assez classique de calculer la variance empirique pour avoir un indicateur de dispersion des données. Découvrez dans cet article comment la calculer !
Prérequis
Définition de la variance empirique
Notons (x_1, \ldots, x_n) un échantillon et \bar{x} sa moyenne empirique. La variance empirique notée s^2 est alors définie par
s^2 = \dfrac{1}{n} \sum_{k=1}^n (x_k-\bar{x})^2
Ecart-type
On appelle écart-type, noté s la racine carrée de la variance :
s = \sqrt{\dfrac{1}{n} \sum_{k=1}^n (x_k-\bar{x})^2 }
Propriétés
- La variance empirique est la valeur qui minimise la quantité EQ(m) = \dfrac{1}{n} \sum_{k=1}^n (x_k-\bar{x})^2 qui s’appelle l’erreur quadratique moyenne d’un nombre m et dont le minimum est atteint pour m = \bar{x}
- Pour une variable aléatoire X, V(aX+b) = V(X)
- Une autre écriture de s^2 est s^2 = \displaystyle \dfrac{1}{n} \sum_{k=1}^n x_k-^2 - \bar{x}^2
- La variance empirique est un estimateur biaisé de la variance
Démontrons ce dernier point. On a
\begin{array}{ll} \mathbb{E} (s^2) &= \displaystyle \dfrac{1}{n} \sum_{k=1}^n \mathbb{E}\left((X_k - \bar X)^2\right)\\ &=\displaystyle \dfrac{1}{n} \sum_{k=1}^n \mathbb{E}\left[\left((X_k- \mu)-(\bar X-\mu)\right)^2\right]\\ &=\displaystyle \dfrac{1}{n} \sum_{k=1}^n V(X_k)+V(\bar X)-2\mathbb{E}\left((X_k - \mu)(\bar X-\mu)\right)\\ &=\displaystyle \dfrac{1}{n} \sum_{k=1}^n V(X_k)+ \dfrac{1}{n} \sum_{k=1}^nV(\bar X)- \dfrac{2}{n} \sum_{k=1}^n\mathbb{E}\left((X_k - \mu)\dfrac{1}{n}\sum_{j=1}^n(X_j-\mu)\right)\\ &=\displaystyle \dfrac{1}{n} \sum_{k=1}^n \sigma^2+ \dfrac{1}{n} \sum_{k=1}^n \dfrac{\sigma^2}{n}- \dfrac{2}{n^2} \sum_{k=1}^n\mathbb{E}\left((X_k - \mu)^2\right)\\ &=\displaystyle \sigma^2+ \dfrac{\sigma^2}{n}- \dfrac{2}{n} \sigma^2\\ &= \dfrac{n-1}{n} \sigma^2 \neq \sigma^2 \end{array}
On va donc parfois définir la variance avec cet estimateur sans biais :
\dfrac{n}{n-1}s^2 = \dfrac{1}{n-1} \sum_{k=1}^n (x_k-\bar{x})^2