Accueil Cours Maths pour le ML Les intervalles de confiance : cours, méthode et exercices corrigés

Maths pour le ML

Les intervalles de confiance : cours, méthode et exercices corrigés

Intervalles de confiance : définition, construction via le TCL, IC pour une moyenne et une proportion, interprétation fréquentiste, applications ML. Exercices corrigés.

parValentin Strach

15 avril 2026

7 minutes de lecture

Pas de commentaire

Intervalles de confiance : définition, construction, interprétation fréquentiste et applications en machine learning

Votre modèle de classification affiche 92% d’accuracy sur le jeu de test. C’est un bon score, mais est-ce fiable ? Avec un jeu de 100 exemples, la vraie accuracy pourrait tout aussi bien être 85% ou 97%. Avec 10 000 exemples, on serait bien plus confiant. Comment quantifier cette incertitude ?

C’est exactement le rôle des intervalles de confiance (IC). Au lieu de donner une estimation ponctuelle (« la moyenne vaut 3,2 »), un IC fournit un encadrement (« la moyenne est entre 2,8 et 3,6 avec 95% de confiance »). C’est l’un des outils les plus importants en statistique et en machine learning.

Dans cet article, on définit les IC, on les construit pas à pas, et on les applique à l’évaluation de modèles ML.

Prérequis : loi normale, espérance et variance, Z-score.

Rappel : le théorème central limite

La construction des intervalles de confiance repose sur le théorème central limite (TCL). On en rappelle l’essentiel.

Si $X_1, \ldots, X_n$ sont i.i.d. de moyenne $\mu$ et de variance $\sigma^2$ , alors pour $n$ assez grand :

\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \underset{\text{approx.}}{\sim} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right)

En standardisant, on obtient une variable qui suit approximativement la loi $\mathcal{N}(0, 1)$ :

\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \underset{\text{approx.}}{\sim} \mathcal{N}(0, 1)

C’est cette relation qui permet d’encadrer $\mu$ à partir de $\bar{X}_n$ .

Définition d’un intervalle de confiance

Estimation ponctuelle vs. estimation par intervalle

Quand on observe un échantillon $x_1, \ldots, x_n$ , on peut calculer une estimation ponctuelle du paramètre inconnu $\theta$ : par exemple, la moyenne empirique $\bar{x}$ pour estimer $\mu$ . Mais cette valeur unique ne dit rien sur sa précision.

L’estimation par intervalle complète l’estimation ponctuelle en fournissant un encadrement qui « a de bonnes chances » de contenir la vraie valeur.

Définition formelle

Un intervalle de confiance au niveau $1 - \alpha$ pour un paramètre $\theta$ est un intervalle aléatoire $[L, U]$ (qui dépend de l’échantillon) tel que :

\boxed{P(\theta \in [L, U]) = 1 - \alpha}

Les niveaux de confiance les plus courants sont :

90% : $\alpha = 0{,}10$ , quantile $z_{0{,}05} = 1{,}645$
95% : $\alpha = 0{,}05$ , quantile $z_{0{,}025} = 1{,}96$
99% : $\alpha = 0{,}01$ , quantile $z_{0{,}005} = 2{,}576$

Attention : le paramètre $\theta$ est une valeur fixe mais inconnue. C’est l’intervalle $[L, U]$ qui est aléatoire (il dépend de l’échantillon). On reviendra sur cette subtilité dans la section « Interprétation fréquentiste ».

IC pour une moyenne

Cas ou sigma est connu

On dispose d’un échantillon $X_1, \ldots, X_n$ i.i.d. de moyenne $\mu$ inconnue et de variance $\sigma^2$ connue, avec $n \geq 30$ (ou $X_i$ de loi normale).

Par le TCL, $Z = (\bar{X}_n - \mu)/(\sigma/\sqrt{n})$ suit approximativement $\mathcal{N}(0, 1)$ . On écrit :

P\left(-z_{\alpha/2} \leq \frac{\bar{X}n - \mu}{\sigma/\sqrt{n}} \leq z{\alpha/2}\right) = 1 - \alpha

En isolant $\mu$ :

\boxed{IC_{1-\alpha}(\mu) = \left[\bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} ;\bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right]}

Exemple : on mesure $n = 64$ pièces produites par une machine, avec $\sigma = 8$ mm (connu) et $\bar{x} = 50$ mm. L’IC à 95% est :

IC = \left[50 - 1{,}96 \times \frac{8}{\sqrt{64}} ; 50 + 1{,}96 \times \frac{8}{\sqrt{64}}\right] = [50 - 1{,}96 ; 50 + 1{,}96] = [48{,}04 ; 51{,}96]

Marge d’erreur : la demi-largeur de l’IC est $E = z_{\alpha/2} ;\sigma / \sqrt{n}$ . Elle décroît en $1/\sqrt{n}$ : pour diviser la marge par 2, il faut multiplier la taille de l’échantillon par 4. C’est une règle fondamentale en statistique.

Cas ou sigma est inconnu (loi de Student)

En pratique, l’écart-type $\sigma$ est rarement connu. On le remplace par l’écart-type empirique $s$ :

s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}

La statistique $T = (\bar{X}_n - \mu)/(s/\sqrt{n})$ ne suit plus une loi normale mais une loi de Student à $n - 1$ degrés de liberté. L’IC devient :

\boxed{IC_{1-\alpha}(\mu) = \left[\bar{x} - t_{\alpha/2,n-1} \frac{s}{\sqrt{n}} ; \bar{x} + t_{\alpha/2,n-1} \frac{s}{\sqrt{n}}\right]}

La loi de Student a des queues plus lourdes que la loi normale : l’IC est un peu plus large pour compenser l’incertitude sur $\sigma$ . Mais pour $n \geq 30$ , la différence est faible (par exemple, $t_{0{,}025,29} = 2{,}045$ contre $z_{0{,}025} = 1{,}96$ ).

IC pour une proportion

On observe $n$ épreuves indépendantes de loi de Bernoulli de paramètre $p$ inconnu. Le nombre de succès $S = X_1 + \cdots + X_n$ suit une loi binomiale $\mathcal{B}(n, p)$ , et l’estimateur naturel de $p$ est :

\hat{p} = \frac{S}{n} = \frac{\text{nombre de succès}}{n}

Par le TCL, $(\hat{p} - p)/\sqrt{p(1-p)/n} \approx \mathcal{N}(0, 1)$ pour $n$ grand. En remplaçant $p$ par $\hat{p}$ dans la variance (puisque $p$ est inconnu) :

\boxed{IC_{1-\alpha}(p) = \left[\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} ; \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]}

Conditions d’application : l’approximation normale est fiable si $n\hat{p} \geq 5$ et $n(1 - \hat{p}) \geq 5$ .

Exemple : dans un sondage de $n = 400$ personnes, $220$ se déclarent favorables. On a $\hat{p} = 0{,}55$ . L’IC à 95% est :

IC = \left[0{,}55 - 1{,}96\sqrt{\frac{0{,}55 \times 0{,}45}{400}} ; 0{,}55 + 1{,}96\sqrt{\frac{0{,}55 \times 0{,}45}{400}}\right]

= [0{,}55 - 0{,}049 ; 0{,}55 + 0{,}049] = [0{,}501 ; 0{,}599]

Avec 95% de confiance, la vraie proportion est entre 50,1% et 59,9%.

Interprétation fréquentiste : ce que « 95% de confiance » veut vraiment dire

C’est le point le plus mal compris en statistique. Prenons l’IC $[48{,}04 ; 51{,}96]$ calculé plus haut.

Ce que ça ne veut PAS dire : « il y a 95% de chances que $\mu$ soit dans $[48{,}04 ; 51{,}96]$ ». Non. La valeur $\mu$ est fixe : elle est dans l’intervalle ou elle n’y est pas. Il n’y a aucune probabilité à attribuer.

Ce que ça veut dire : si on répétait l’expérience un grand nombre de fois (nouveau tirage de 64 pièces, nouveau calcul de l’IC), environ 95% des intervalles construits contiendraient la vraie valeur $\mu$ .

Simulation de 20 intervalles de confiance : 19 contiennent la vraie valeur mu, 1 la rate

Sur la figure ci-dessus, chaque barre horizontale est un IC calculé sur un échantillon différent. La ligne verticale en pointillés marque la vraie valeur $\mu$ . Sur 20 intervalles, environ 19 contiennent $\mu$ (en vert) et 1 le rate (en rouge). C’est ça, « 95% de confiance ».

En résumé : le « 95% » qualifie la méthode, pas un intervalle particulier. Après avoir calculé un IC, la formulation correcte est : « la méthode utilisée a un taux de couverture de 95% ».

L’interprétation bayésienne (intervalles de crédibilité, qui donnent une probabilité que le paramètre soit dans l’intervalle conditionnellement aux données) est différente et sera traitée dans un article dédié aux statistiques bayésiennes.

Applications en machine learning

IC sur l’accuracy d’un modèle

Quand on évalue un classifieur sur $n$ exemples de test, chaque prédiction est correcte (1) ou incorrecte (0) : c’est une épreuve de Bernoulli. L’accuracy empirique $\hat{a} = k/n$ est donc une proportion, et on peut appliquer directement l’IC pour une proportion.

Exemple : un modèle obtient $\hat{a} = 0{,}92$ sur $n = 500$ exemples. L’IC à 95% est :

IC = \left[0{,}92 - 1{,}96\sqrt{\frac{0{,}92 \times 0{,}08}{500}} ; 0{,}92 + 1{,}96\sqrt{\frac{0{,}92 \times 0{,}08}{500}}\right] = [0{,}896 ; 0{,}944]

Rapporter « 92% d’accuracy » sans cet intervalle est incomplet : la vraie performance pourrait raisonnablement être entre 89,6% et 94,4%. Avec un jeu de test plus petit ( $n = 100$ ), la marge passerait à $\pm 5{,}3%$ , nettement moins précis.

Application ML : dans un article de recherche ou un rapport, toujours accompagner les métriques de classification d’un intervalle de confiance. C’est ce qui distingue un résultat solide d’une observation anecdotique.

IC sur l’AUC par bootstrap

L’AUC (aire sous la courbe ROC) est une métrique dont la variance n’a pas de formule analytique simple. En pratique, on utilise le bootstrap :

Tirer $B$ échantillons bootstrap (rééchantillonnage avec remise du jeu de test, $B \geq 1000$ )
Calculer l’AUC sur chaque échantillon bootstrap
Prendre le $2{,}5^e$ et le $97{,}5^e$ percentiles des AUC obtenues comme bornes de l’IC à 95%

Cette méthode par percentiles fonctionne pour n’importe quelle métrique (F1-score, recall, precision, etc.) sans avoir besoin d’une formule analytique.

Barres d’erreur sur les courbes d’apprentissage

En validation croisée à $k$ plis, on obtient $k$ scores. On peut reporter :

\text{score moyen} \pm z_{\alpha/2} \frac{s}{\sqrt{k}}

où $s$ est l’écart-type des $k$ scores. Cela donne des barres d’erreur sur chaque point de la courbe d’apprentissage.

Si les barres d’erreur de deux modèles se chevauchent, on ne peut pas conclure qu’un modèle est significativement meilleur que l’autre. Les tests d’hypothèses permettent de formaliser cette comparaison.

Exercices corrigés

Exercice 1 : IC pour une moyenne (sigma connu)

Une machine produit des pièces dont le diamètre suit une loi normale d’écart-type $\sigma = 0{,}05$ mm. On mesure $n = 36$ pièces et on obtient une moyenne $\bar{x} = 12{,}02$ mm.

a) Construire un IC à 95% pour le diamètre moyen $\mu$ .

b) Quelle taille d’échantillon faudrait-il pour obtenir une marge d’erreur inférieure à $0{,}01$ mm ?

Correction :

a) On a $\sigma = 0{,}05$ , $n = 36$ , $\bar{x} = 12{,}02$ et $z_{0{,}025} = 1{,}96$ .

IC = \left[12{,}02 - 1{,}96 \times \frac{0{,}05}{\sqrt{36}} ; 12{,}02 + 1{,}96 \times \frac{0{,}05}{\sqrt{36}}\right]

= \left[12{,}02 - 1{,}96 \times 0{,}00833 ; 12{,}02 + 1{,}96 \times 0{,}00833\right] = [12{,}004 ; 12{,}036]

Avec 95% de confiance, le diamètre moyen est compris entre 12,004 mm et 12,036 mm.

b) On cherche $n$ tel que la marge $E = 1{,}96 \times 0{,}05/\sqrt{n} < 0{,}01$ :

\sqrt{n} > \frac{1{,}96 \times 0{,}05}{0{,}01} = 9{,}8 \quad \Longrightarrow \quad n > 96{,}04

Il faut au moins 97 pièces. C’est presque 3 fois plus que les 36 initiales, pour une marge seulement 1,6 fois plus petite : on retrouve la décroissance en $1/\sqrt{n}$ .

Exercice 2 : IC pour une proportion à 99%

Dans un sondage, on interroge $n = 1200$ personnes et $684$ se déclarent favorables à une mesure.

a) Calculer l’estimation ponctuelle de la proportion $p$ .

b) Construire un IC à 99% pour $p$ .

c) Vérifier que les conditions d’application sont remplies.

Correction :

a) $\hat{p} = 684/1200 = 0{,}57$ .

b) Pour un IC à 99%, $z_{0{,}005} = 2{,}576$ .

IC = \left[0{,}57 - 2{,}576 \sqrt{\frac{0{,}57 \times 0{,}43}{1200}} ; 0{,}57 + 2{,}576 \sqrt{\frac{0{,}57 \times 0{,}43}{1200}}\right]

= [0{,}57 - 2{,}576 \times 0{,}0143 ; 0{,}57 + 2{,}576 \times 0{,}0143] = [0{,}533 ; 0{,}607]

Avec 99% de confiance, la vraie proportion est entre 53,3% et 60,7%.

c) On vérifie $n\hat{p} = 684 \geq 5$ et $n(1 - \hat{p}) = 516 \geq 5$ : les conditions sont largement remplies.

Remarque : en passant de 95% à 99%, la marge est passée de $1{,}96 \times 0{,}0143 = 0{,}028$ à $2{,}576 \times 0{,}0143 = 0{,}037$ . Plus de confiance signifie un intervalle plus large.

Exercice 3 : IC bootstrap sur l’accuracy d’un modèle

Un classifieur est évalué sur un jeu de test de $n = 200$ exemples. On effectue 5 rééchantillonnages bootstrap (pour simplifier) et on obtient les accuracy suivantes : $0{,}88$ , $0{,}91$ , $0{,}86$ , $0{,}90$ , $0{,}89$ .

a) Calculer la moyenne et l’écart-type des accuracy bootstrap.

b) Construire un IC à 95% par la méthode normale (moyenne $\pm$ $z \times s$ ).

c) On suppose que pour $B = 1000$ échantillons bootstrap, le $2{,}5^e$ percentile est $0{,}85$ et le $97{,}5^e$ est $0{,}93$ . Quel IC est plus fiable ?

Correction :

a) Moyenne : $\bar{a} = (0{,}88 + 0{,}91 + 0{,}86 + 0{,}90 + 0{,}89)/5 = 0{,}888$ .

Écart-type (avec $n - 1 = 4$ au dénominateur) :

s = \sqrt{\frac{(0{,}88 - 0{,}888)^2 + (0{,}91 - 0{,}888)^2 + \cdots + (0{,}89 - 0{,}888)^2}{4}} \approx 0{,}0192

b) IC par la méthode normale :

IC = [0{,}888 - 1{,}96 \times 0{,}0192 ; 0{,}888 + 1{,}96 \times 0{,}0192] = [0{,}850 ; 0{,}926]

c) IC par percentiles ( $B = 1000$ ) : $[0{,}85 ; 0{,}93]$ .

L’IC par percentiles avec $B = 1000$ est bien plus fiable. Avec seulement $B = 5$ échantillons, l’écart-type estimé est très imprécis et la méthode normale repose sur l’hypothèse (fragile) que la distribution des accuracy bootstrap est symétrique. En pratique, on utilise toujours $B \geq 1000$ et on préfère la méthode par percentiles.

Exercices d’entraînement

On mesure la durée de vie de $n = 50$ ampoules fabriquées par une usine. On obtient une moyenne de $1200$ heures et un écart-type empirique de $s = 150$ heures. Construire un IC à 95% pour la durée de vie moyenne ( $\sigma$ inconnu). Indication : utiliser la loi de Student (ou, vu que $n = 50$ , comparer avec l’approximation par la loi normale).
Un test A/B est réalisé sur un site web. Sur $800$ visiteurs du groupe A, $96$ ont cliqué sur le bouton. Sur $800$ visiteurs du groupe B, $120$ ont cliqué. Construire un IC à 95% pour la proportion de clics dans chaque groupe. Les deux IC se chevauchent-ils ?
Un modèle de détection de fraude est évalué par validation croisée à $10$ plis. Les F1-scores obtenus sont : $0{,}82$ , $0{,}79$ , $0{,}85$ , $0{,}81$ , $0{,}83$ , $0{,}80$ , $0{,}84$ , $0{,}78$ , $0{,}82$ , $0{,}81$ . Construire un IC à 95% pour le F1-score moyen du modèle. Indication : avec $k = 10$ plis, utiliser $t_{0{,}025,9} = 2{,}262$ .

FAQ

Qu’est-ce qu’un intervalle de confiance ?

Un intervalle de confiance est un encadrement d’un paramètre inconnu (comme une moyenne ou une proportion) construit à partir d’un échantillon. Il est associé à un niveau de confiance (souvent 95%) qui indique la fiabilité de la méthode. Plus l’échantillon est grand, plus l’intervalle est étroit et donc précis.

Que signifie vraiment « 95% de confiance » ?

Cela signifie que si on répétait l’expérience un grand nombre de fois, environ 95% des intervalles calculés contiendraient la vraie valeur du paramètre. Ce n’est pas la probabilité que le paramètre soit dans un intervalle particulier : une fois calculé, le paramètre est soit dedans, soit pas.

À quoi servent les intervalles de confiance en machine learning ?

En machine learning, les intervalles de confiance permettent de quantifier l’incertitude sur les métriques d’évaluation comme l’accuracy ou l’AUC. Rapporter un score sans intervalle de confiance peut être trompeur, car le score dépend de l’échantillon de test utilisé. Les IC permettent aussi de comparer rigoureusement deux modèles.

Quelle est la différence entre un intervalle de confiance et un intervalle de crédibilité ?

L’intervalle de confiance est fréquentiste : il repose sur la répétition hypothétique de l’expérience. L’intervalle de crédibilité est bayésien : il donne la probabilité que le paramètre soit dans l’intervalle, étant donné les données et un a priori. En pratique, pour de grands échantillons, les deux approches donnent des résultats très proches.

The Latest

La régression Lasso : cours complet et applications en machine learning

La régression Ridge : cours complet et applications en machine learning

Méthode de Newton : optimisation et applications ML

SVD (décomposition en valeurs singulières) : cours complet

Les intervalles de confiance : cours, méthode et exercices corrigés

Rappel : le théorème central limite

Définition d’un intervalle de confiance