La modélisation des données est probablement la tâche la plus fréquente en machine learning et en data science. La question qui vient inévitablement avec la modélisation est la précision de la prédiction pour les points de données non vus. Diverses mesures de la précision ont été proposées, et chacune d’entre elles a ses avantages et ses inconvénients. Cet article explique l’intuition derrière l’indicateur R², également connu sous le nom de coefficient de détermination.

Soit un ensemble de données de taille n avec les données X et une un ensemble à prédire y. Le but est d’ajuster un prédicteur P qui renvoie les prédictions P(X)=ŷ. Notre prédicteur doit être aussi précis que possible et un indicateur qu’on cherche à minimiser est ce qu’on appelle l’erreur quadratique moyenne. On la nomme MSE pour Mean Squared Error

MSE = \dfrac{1}{n} \sum_{i=1}^n (y_i - \hat{y_i})^2

Alors, quel serait le prédicteur le plus simple auquel on pourrait penser ? Commençons d’abord à ignorer l’entrée X. En utilisant uniquement y, on peut estimer la moyenne de la cible :

\bar{y}= \dfrac{1}{n} \sum_{i=1}^n y_i

et choisir de retourner cette valeur y̅ pour toutes les prédictions. Dans la suite de cet article, ce prédicteur est désigné par PS (où le s signifie simple). En insérant les prédictions de PS dans l’équation MSE, nous obtenons

MSE(y,P^S(X) ) = \dfrac{1}{n} \sum_{i=1}^n (y_1-P^S(X))^2 = \dfrac{1}{n} \sum_{i=1}^n(y_i-\bar{y})^2

Cela ne vous dit pas quelque chose ? Ah oui, c’est exactement la définition de la variance. Donc pour un prédicteur constant qui renvoie toujours y̅, MSE est égal à la variance de y. Fait intéressant pour le moment, mais passons à autre chose.

Régression linéaire moyenne
Régression par la moyenne

En quoi cela peut-il être utile pour mesurer la performance de mon modèle ? Et qu’est-ce que cette introduction bizarre a à voir avec le R² ? La raison de l’introduction d’un prédicteur « de base » est qu’il peut être utile de mettre l’erreur dans une relation. Cela est particulièrement utile lorsque deux prédicteurs ou plus sont comparés à des ensembles de données ayant des échelles différentes. Par exemple, prenons un ensemble de données avec y dans la plage ]-1, 1[ et un autre avec ]-10000, 10000{. En raison de l’échelle, la MSE du second ensemble de données devrait être plus élevée. Ainsi, une normalisation est nécessaire, sinon, on compare des oranges avec des choux.

Supposons que nous ajustons un prédicteur P, qui fournit les prédictions ŷ = P(X). Alors R² est défini par

R^2 = 1 - \dfrac{MSE(y,P(X))}{MSE(y,P^S(X))} = 1 - \dfrac{MSE(y,\hat{y})}{MSE(y,\bar{y})} 

Cela semble donc être une équation relativement simple. En gros, nous divisons la MSE de notre prédicteur P et nous la divisons par la MSE de PS, ce qui met les deux erreurs en relation. La figure ci-dessous donne un exemple de ce à quoi cela peut ressembler pour un prédicteur linéaire P. On peut observer que la MSE(y,ŷ) est plus petite que la MSE(y,y̅). Ainsi, la fraction sera inférieure à un, ce qui se traduit par une valeur positive de R².

R2, dessiné

Voyons ce qui peut arriver :

  • R²=1 : Supposons que nous ayons trouvé le meilleur prédicteur possible avec MSE(y,ŷ)=0. Alors, 0 divisé par n’importe quoi est zéro, et 1-0=1. C’est top, car ce que nous avons montré ici, c’est que la meilleure valeur possible de R² est, en fait, 1.
  • R² > 0 : il est beaucoup plus probable que votre prédicteur ait une certaine erreur. Maintenant, un R² positif nous indique à quel point notre prédicteur est meilleur par rapport au fait de toujours prédire la moyenne.
  • R² <0 : Vous pourriez penser comment diable mon prédicteur pourrait être pire que de toujours prédire la moyenne de la cible. Vous avez sans doute entendu parler de l’overfitting ? C’est exactement dans ce cas que cela risque de se produire.

Après avoir examiné ces trois cas, nous savons également que les valeurs de R² doivent se situer dans l’intervalle ]-∞, 1]. Intuitivement, c’est le cas parce que, d’une part, il n’existe pas de borne inférieure pour R² parce que MSE(y,ŷ) n’a pas de borne supérieure. D’autre part, MSE(y,ŷ) ne peut pas être inférieur à zéro, ce qui fait qu’on a une borne supérieure de 1.

Il convient également de mentionner que, puisque le dénominateur est égal à var(y), on peut également interpréter la métrique comme la variance expliquée. Ou, en d’autres termes, le pourcentage de la variance que le prédicteur peut capturer.

Voilà c’est tout pour cet article et le coefficient de détermination. N’hésitez pas à laisser quelques commentaires ci-dessous.

Source : Towards Data Science

Laisser un commentaire