Votre modèle de classification affiche 92% d’accuracy sur le jeu de test. C’est un bon score, mais est-ce fiable ? Avec un jeu de 100 exemples, la vraie accuracy pourrait tout aussi bien être 85% ou 97%. Avec 10 000 exemples, on serait bien plus confiant. Comment quantifier cette incertitude ?
C’est exactement le rôle des intervalles de confiance (IC). Au lieu de donner une estimation ponctuelle (« la moyenne vaut 3,2 »), un IC fournit un encadrement (« la moyenne est entre 2,8 et 3,6 avec 95% de confiance »). C’est l’un des outils les plus importants en statistique et en machine learning.
Dans cet article, on définit les IC, on les construit pas à pas, et on les applique à l’évaluation de modèles ML.
Prérequis : loi normale, espérance et variance, Z-score.
Rappel : le théorème central limite
La construction des intervalles de confiance repose sur le théorème central limite (TCL). On en rappelle l’essentiel.
Si X_1, \ldots, X_n sont i.i.d. de moyenne \mu et de variance \sigma^2, alors pour n assez grand :
\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \underset{\text{approx.}}{\sim} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right)En standardisant, on obtient une variable qui suit approximativement la loi \mathcal{N}(0, 1) :
\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \underset{\text{approx.}}{\sim} \mathcal{N}(0, 1)C’est cette relation qui permet d’encadrer \mu à partir de \bar{X}_n.
Définition d’un intervalle de confiance
Estimation ponctuelle vs. estimation par intervalle
Quand on observe un échantillon x_1, \ldots, x_n, on peut calculer une estimation ponctuelle du paramètre inconnu \theta : par exemple, la moyenne empirique \bar{x} pour estimer \mu. Mais cette valeur unique ne dit rien sur sa précision.
L’estimation par intervalle complète l’estimation ponctuelle en fournissant un encadrement qui « a de bonnes chances » de contenir la vraie valeur.
Définition formelle
Un intervalle de confiance au niveau 1 - \alpha pour un paramètre \theta est un intervalle aléatoire [L, U] (qui dépend de l’échantillon) tel que :
\boxed{P(\theta \in [L, U]) = 1 - \alpha}Les niveaux de confiance les plus courants sont :
- 90% : \alpha = 0{,}10, quantile z_{0{,}05} = 1{,}645
- 95% : \alpha = 0{,}05, quantile z_{0{,}025} = 1{,}96
- 99% : \alpha = 0{,}01, quantile z_{0{,}005} = 2{,}576
Attention : le paramètre \theta est une valeur fixe mais inconnue. C’est l’intervalle [L, U] qui est aléatoire (il dépend de l’échantillon). On reviendra sur cette subtilité dans la section « Interprétation fréquentiste ».
IC pour une moyenne
Cas ou sigma est connu
On dispose d’un échantillon X_1, \ldots, X_n i.i.d. de moyenne \mu inconnue et de variance \sigma^2 connue, avec n \geq 30 (ou X_i de loi normale).
Par le TCL, Z = (\bar{X}_n - \mu)/(\sigma/\sqrt{n}) suit approximativement \mathcal{N}(0, 1). On écrit :
P\left(-z_{\alpha/2} \leq \frac{\bar{X}n - \mu}{\sigma/\sqrt{n}} \leq z{\alpha/2}\right) = 1 - \alphaEn isolant \mu :
\boxed{IC_{1-\alpha}(\mu) = \left[\bar{x} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} ;\bar{x} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right]}Exemple : on mesure n = 64 pièces produites par une machine, avec \sigma = 8 mm (connu) et \bar{x} = 50 mm. L’IC à 95% est :
IC = \left[50 - 1{,}96 \times \frac{8}{\sqrt{64}} ; 50 + 1{,}96 \times \frac{8}{\sqrt{64}}\right] = [50 - 1{,}96 ; 50 + 1{,}96] = [48{,}04 ; 51{,}96]Marge d’erreur : la demi-largeur de l’IC est E = z_{\alpha/2} ;\sigma / \sqrt{n}. Elle décroît en 1/\sqrt{n} : pour diviser la marge par 2, il faut multiplier la taille de l’échantillon par 4. C’est une règle fondamentale en statistique.
Cas ou sigma est inconnu (loi de Student)
En pratique, l’écart-type \sigma est rarement connu. On le remplace par l’écart-type empirique s :
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}La statistique T = (\bar{X}_n - \mu)/(s/\sqrt{n}) ne suit plus une loi normale mais une loi de Student à n - 1 degrés de liberté. L’IC devient :
\boxed{IC_{1-\alpha}(\mu) = \left[\bar{x} - t_{\alpha/2,n-1} \frac{s}{\sqrt{n}} ; \bar{x} + t_{\alpha/2,n-1} \frac{s}{\sqrt{n}}\right]}La loi de Student a des queues plus lourdes que la loi normale : l’IC est un peu plus large pour compenser l’incertitude sur \sigma. Mais pour n \geq 30, la différence est faible (par exemple, t_{0{,}025,29} = 2{,}045 contre z_{0{,}025} = 1{,}96).
IC pour une proportion
On observe n épreuves indépendantes de loi de Bernoulli de paramètre p inconnu. Le nombre de succès S = X_1 + \cdots + X_n suit une loi binomiale \mathcal{B}(n, p), et l’estimateur naturel de p est :
\hat{p} = \frac{S}{n} = \frac{\text{nombre de succès}}{n}Par le TCL, (\hat{p} - p)/\sqrt{p(1-p)/n} \approx \mathcal{N}(0, 1) pour n grand. En remplaçant p par \hat{p} dans la variance (puisque p est inconnu) :
\boxed{IC_{1-\alpha}(p) = \left[\hat{p} - z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} ; \hat{p} + z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]}Conditions d’application : l’approximation normale est fiable si n\hat{p} \geq 5 et n(1 - \hat{p}) \geq 5.
Exemple : dans un sondage de n = 400 personnes, 220 se déclarent favorables. On a \hat{p} = 0{,}55. L’IC à 95% est :
IC = \left[0{,}55 - 1{,}96\sqrt{\frac{0{,}55 \times 0{,}45}{400}} ; 0{,}55 + 1{,}96\sqrt{\frac{0{,}55 \times 0{,}45}{400}}\right]= [0{,}55 - 0{,}049 ; 0{,}55 + 0{,}049] = [0{,}501 ; 0{,}599]Avec 95% de confiance, la vraie proportion est entre 50,1% et 59,9%.
Interprétation fréquentiste : ce que « 95% de confiance » veut vraiment dire
C’est le point le plus mal compris en statistique. Prenons l’IC [48{,}04 ; 51{,}96] calculé plus haut.
Ce que ça ne veut PAS dire : « il y a 95% de chances que \mu soit dans [48{,}04 ; 51{,}96] ». Non. La valeur \mu est fixe : elle est dans l’intervalle ou elle n’y est pas. Il n’y a aucune probabilité à attribuer.
Ce que ça veut dire : si on répétait l’expérience un grand nombre de fois (nouveau tirage de 64 pièces, nouveau calcul de l’IC), environ 95% des intervalles construits contiendraient la vraie valeur \mu.

Sur la figure ci-dessus, chaque barre horizontale est un IC calculé sur un échantillon différent. La ligne verticale en pointillés marque la vraie valeur \mu. Sur 20 intervalles, environ 19 contiennent \mu (en vert) et 1 le rate (en rouge). C’est ça, « 95% de confiance ».
En résumé : le « 95% » qualifie la méthode, pas un intervalle particulier. Après avoir calculé un IC, la formulation correcte est : « la méthode utilisée a un taux de couverture de 95% ».
L’interprétation bayésienne (intervalles de crédibilité, qui donnent une probabilité que le paramètre soit dans l’intervalle conditionnellement aux données) est différente et sera traitée dans un article dédié aux statistiques bayésiennes.
Applications en machine learning
IC sur l’accuracy d’un modèle
Quand on évalue un classifieur sur n exemples de test, chaque prédiction est correcte (1) ou incorrecte (0) : c’est une épreuve de Bernoulli. L’accuracy empirique \hat{a} = k/n est donc une proportion, et on peut appliquer directement l’IC pour une proportion.
Exemple : un modèle obtient \hat{a} = 0{,}92 sur n = 500 exemples. L’IC à 95% est :
IC = \left[0{,}92 - 1{,}96\sqrt{\frac{0{,}92 \times 0{,}08}{500}} ; 0{,}92 + 1{,}96\sqrt{\frac{0{,}92 \times 0{,}08}{500}}\right] = [0{,}896 ; 0{,}944]Rapporter « 92% d’accuracy » sans cet intervalle est incomplet : la vraie performance pourrait raisonnablement être entre 89,6% et 94,4%. Avec un jeu de test plus petit (n = 100), la marge passerait à \pm 5{,}3%, nettement moins précis.
Application ML : dans un article de recherche ou un rapport, toujours accompagner les métriques de classification d’un intervalle de confiance. C’est ce qui distingue un résultat solide d’une observation anecdotique.
IC sur l’AUC par bootstrap
L’AUC (aire sous la courbe ROC) est une métrique dont la variance n’a pas de formule analytique simple. En pratique, on utilise le bootstrap :
- Tirer B échantillons bootstrap (rééchantillonnage avec remise du jeu de test, B \geq 1000)
- Calculer l’AUC sur chaque échantillon bootstrap
- Prendre le 2{,}5^e et le 97{,}5^e percentiles des AUC obtenues comme bornes de l’IC à 95%
Cette méthode par percentiles fonctionne pour n’importe quelle métrique (F1-score, recall, precision, etc.) sans avoir besoin d’une formule analytique.
Barres d’erreur sur les courbes d’apprentissage
En validation croisée à k plis, on obtient k scores. On peut reporter :
\text{score moyen} \pm z_{\alpha/2} \frac{s}{\sqrt{k}}où s est l’écart-type des k scores. Cela donne des barres d’erreur sur chaque point de la courbe d’apprentissage.
Si les barres d’erreur de deux modèles se chevauchent, on ne peut pas conclure qu’un modèle est significativement meilleur que l’autre. Les tests d’hypothèses permettent de formaliser cette comparaison.
Exercices corrigés
Exercice 1 : IC pour une moyenne (sigma connu)
Une machine produit des pièces dont le diamètre suit une loi normale d’écart-type \sigma = 0{,}05 mm. On mesure n = 36 pièces et on obtient une moyenne \bar{x} = 12{,}02 mm.
a) Construire un IC à 95% pour le diamètre moyen \mu.
b) Quelle taille d’échantillon faudrait-il pour obtenir une marge d’erreur inférieure à 0{,}01 mm ?
Correction :
a) On a \sigma = 0{,}05, n = 36, \bar{x} = 12{,}02 et z_{0{,}025} = 1{,}96.
IC = \left[12{,}02 - 1{,}96 \times \frac{0{,}05}{\sqrt{36}} ; 12{,}02 + 1{,}96 \times \frac{0{,}05}{\sqrt{36}}\right]= \left[12{,}02 - 1{,}96 \times 0{,}00833 ; 12{,}02 + 1{,}96 \times 0{,}00833\right] = [12{,}004 ; 12{,}036]Avec 95% de confiance, le diamètre moyen est compris entre 12,004 mm et 12,036 mm.
b) On cherche n tel que la marge E = 1{,}96 \times 0{,}05/\sqrt{n} < 0{,}01 :
\sqrt{n} > \frac{1{,}96 \times 0{,}05}{0{,}01} = 9{,}8 \quad \Longrightarrow \quad n > 96{,}04Il faut au moins 97 pièces. C’est presque 3 fois plus que les 36 initiales, pour une marge seulement 1,6 fois plus petite : on retrouve la décroissance en 1/\sqrt{n}.
Exercice 2 : IC pour une proportion à 99%
Dans un sondage, on interroge n = 1200 personnes et 684 se déclarent favorables à une mesure.
a) Calculer l’estimation ponctuelle de la proportion p.
b) Construire un IC à 99% pour p.
c) Vérifier que les conditions d’application sont remplies.
Correction :
a) \hat{p} = 684/1200 = 0{,}57.
b) Pour un IC à 99%, z_{0{,}005} = 2{,}576.
IC = \left[0{,}57 - 2{,}576 \sqrt{\frac{0{,}57 \times 0{,}43}{1200}} ; 0{,}57 + 2{,}576 \sqrt{\frac{0{,}57 \times 0{,}43}{1200}}\right]= [0{,}57 - 2{,}576 \times 0{,}0143 ; 0{,}57 + 2{,}576 \times 0{,}0143] = [0{,}533 ; 0{,}607]Avec 99% de confiance, la vraie proportion est entre 53,3% et 60,7%.
c) On vérifie n\hat{p} = 684 \geq 5 et n(1 - \hat{p}) = 516 \geq 5 : les conditions sont largement remplies.
Remarque : en passant de 95% à 99%, la marge est passée de 1{,}96 \times 0{,}0143 = 0{,}028 à 2{,}576 \times 0{,}0143 = 0{,}037. Plus de confiance signifie un intervalle plus large.
Exercice 3 : IC bootstrap sur l’accuracy d’un modèle
Un classifieur est évalué sur un jeu de test de n = 200 exemples. On effectue 5 rééchantillonnages bootstrap (pour simplifier) et on obtient les accuracy suivantes : 0{,}88, 0{,}91, 0{,}86, 0{,}90, 0{,}89.
a) Calculer la moyenne et l’écart-type des accuracy bootstrap.
b) Construire un IC à 95% par la méthode normale (moyenne \pm z \times s).
c) On suppose que pour B = 1000 échantillons bootstrap, le 2{,}5^e percentile est 0{,}85 et le 97{,}5^e est 0{,}93. Quel IC est plus fiable ?
Correction :
a) Moyenne : \bar{a} = (0{,}88 + 0{,}91 + 0{,}86 + 0{,}90 + 0{,}89)/5 = 0{,}888.
Écart-type (avec n - 1 = 4 au dénominateur) :
s = \sqrt{\frac{(0{,}88 - 0{,}888)^2 + (0{,}91 - 0{,}888)^2 + \cdots + (0{,}89 - 0{,}888)^2}{4}} \approx 0{,}0192b) IC par la méthode normale :
IC = [0{,}888 - 1{,}96 \times 0{,}0192 ; 0{,}888 + 1{,}96 \times 0{,}0192] = [0{,}850 ; 0{,}926]c) IC par percentiles (B = 1000) : [0{,}85 ; 0{,}93].
L’IC par percentiles avec B = 1000 est bien plus fiable. Avec seulement B = 5 échantillons, l’écart-type estimé est très imprécis et la méthode normale repose sur l’hypothèse (fragile) que la distribution des accuracy bootstrap est symétrique. En pratique, on utilise toujours B \geq 1000 et on préfère la méthode par percentiles.
Exercices d’entraînement
- On mesure la durée de vie de n = 50 ampoules fabriquées par une usine. On obtient une moyenne de 1200 heures et un écart-type empirique de s = 150 heures. Construire un IC à 95% pour la durée de vie moyenne (\sigma inconnu). Indication : utiliser la loi de Student (ou, vu que n = 50, comparer avec l’approximation par la loi normale).
- Un test A/B est réalisé sur un site web. Sur 800 visiteurs du groupe A, 96 ont cliqué sur le bouton. Sur 800 visiteurs du groupe B, 120 ont cliqué. Construire un IC à 95% pour la proportion de clics dans chaque groupe. Les deux IC se chevauchent-ils ?
- Un modèle de détection de fraude est évalué par validation croisée à 10 plis. Les F1-scores obtenus sont : 0{,}82, 0{,}79, 0{,}85, 0{,}81, 0{,}83, 0{,}80, 0{,}84, 0{,}78, 0{,}82, 0{,}81. Construire un IC à 95% pour le F1-score moyen du modèle. Indication : avec k = 10 plis, utiliser t_{0{,}025,9} = 2{,}262.
FAQ
Un intervalle de confiance est un encadrement d’un paramètre inconnu (comme une moyenne ou une proportion) construit à partir d’un échantillon. Il est associé à un niveau de confiance (souvent 95%) qui indique la fiabilité de la méthode. Plus l’échantillon est grand, plus l’intervalle est étroit et donc précis.
Cela signifie que si on répétait l’expérience un grand nombre de fois, environ 95% des intervalles calculés contiendraient la vraie valeur du paramètre. Ce n’est pas la probabilité que le paramètre soit dans un intervalle particulier : une fois calculé, le paramètre est soit dedans, soit pas.
En machine learning, les intervalles de confiance permettent de quantifier l’incertitude sur les métriques d’évaluation comme l’accuracy ou l’AUC. Rapporter un score sans intervalle de confiance peut être trompeur, car le score dépend de l’échantillon de test utilisé. Les IC permettent aussi de comparer rigoureusement deux modèles.
L’intervalle de confiance est fréquentiste : il repose sur la répétition hypothétique de l’expérience. L’intervalle de crédibilité est bayésien : il donne la probabilité que le paramètre soit dans l’intervalle, étant donné les données et un a priori. En pratique, pour de grands échantillons, les deux approches donnent des résultats très proches.








