Machine learning : Les indicateurs d’erreur pour une prédiction

Comment évaluer un modèle de régression ? SSE, MSE, RMSE, MAE, MAPE, AIC, BIC, ces indicateurs n’auront plus de secret pour vous !
Prédiction machine learning

Lorsque l’on fait une prédiction en machine learning (appelée aussi régression), il est important de bien définir l’erreur de calcul faite sur les données d’entraînement. Pour cela, il existe plusieurs indicateurs

Article similaire :

Dans toute la suite, on appelera y_i la valeur réelle et \hat{y_i} la prédiction.

La SSE : Sum of Squared Errors

L’indicateur le plus basique est la SSE (Sum of Squared Errors) ou en français, somme des carrés des résidus (SCR) . Cet indicateur est le plus basique. Il est croissant en fonction de l’erreur et du nombre d’observations de l’échantillon. La formule qui le définit est la suivante :

SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2

Cet indicateur n’a d’intérêt que lorsque le nombre d’observations de l’échantillon à comparer est constant et que l’on travaille sur les mêmes échelles de valeurs.

La MSE : Mean Square Error

La MSE (Mean Square Error) ou en français MCE (Moyenne des carrées des erreurs). Il s’agit donc de la moyenne des erreurs de la formule précédente. On peut donc l’écrire sous la forme :

MSE = \dfrac{SSE}{n} = \sum_{i=1}^n \dfrac{(y_i - \hat{y_i})^2}{n}

De cette manière, on corrige les effets dus à la longueur des échantillons : on peut maintenant comparer 2 nombres d’observations de l’échantillon de cardinalité différente.

La RMSE : Root Mean Square Error

La RMSE (Root Mean Square Error) est la racine carrée de la MSE. La formule à retenir est donc la suivante :

RMSE = \sqrt{MSE} =\sqrt{ \sum_{i=1}^n \dfrac{(y_i - \hat{y_i})^2}{n}}

L’intérêt de cette formule est d’homogénéiser l’erreur. De cette cette manière, l’erreur est de la même unité que les variables prédites et est plus facilement interprétable (si les valeurs prédites tournent autour de 100 000 et qu’on a une RMSE de 10 alors globalement ça semble être une erreur très faible devant les valeurs prises habituellement par la variable).

La MAE : Mean Absolute Error

La MAE (Mean Absolute Error) ou en français EAM (Erreur Absolue Moyenne) est la moyenne arithmétique des erreurs en valeur absolue. La formule est donc la suivante :

MAE =\dfrac{1}{n}\sum_{i=1}^n |y_i - \hat{y_i}| 

Cette formule est directement homogène. L’inconvénient qu’elle présente est que cette formule n’est pas convexe là où la plupart des fonctions d’optimisation seront plus utiles si l’hypothèse de convexité est vérifiée (ce qui nous assure l’existence d’un minimum global). Essayez de calculer le minimum de cette fonction !

La MAPE : Mean Absolute Percentage Error

Le MAPE (Mean Absolute Percentage Error) ou EMAP (Erreur Moyenne Absolue en Pourcentage). C’est la moyenne des écarts en valeur absolue par rapport aux valeurs observées. C’est un pourcentage ce qui est pratique : On peut comparer deux séries ayant des échelles de valeurs différentes et deux échantillons de taille différentes.

Néanmoins, les variables cibles doivent être non nulles. Aussi, si on décale tout de 1, le résultat n’est plus le même, cet indicateur d’erreur n’est pas invariable par translation, ce qui peut être gênant.

MAPE =\dfrac{1}{n}\sum_{i=1}^n\left|\dfrac{ y_i - \hat{y_i}}{y_i}\right|

AIC : Akaike Information Criterion

En français, cela peut être CIA : Critère d’Information d’Akaike. Cette formule a été proposée par Hirotugu Akaike en 1973. La formule de ce critère est la suivante :

AIC = 2k - 2 \ln (L) 

où k est le nombre de paramètres à estimer du modèle et L le maximum de vraisemblance du modèle. Si les erreurs sont distribuées normalement, on peut alors utiliser la formule suivante :

AIC = n \ln (MSE) +2 k 

Il existe aussi plusieurs versions de ce critère corrigées telles que :

AIC_c = AIC + \dfrac{2k(k+1)}{n-k-1}

On choisit alors le modèle qui a la plus faible valeur d’AIC.

BIC : Bayesian Information Criterion

Le BIC (Bayesian Information Criterion) ou CIB (Critère d’Information Bayésien) est un critère de sélection de modèles.

BIC = -2 \ln(L)+ k \ln(N)

où k est le nombre de paramètres à estimer du modèle, L le maximum de vraisemblance du modèle et N le nombre d’observations de l’échantillon. On choisit alors le modèle qui minimise le BIC.

Laisser un commentaire

Articles similaires

En savoir plus sur Progresser-en-maths

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture