Accueil Cours Maths pour le ML La régression Lasso : cours complet et applications en machine learning

Maths pour le ML

La régression Lasso : cours complet et applications en machine learning

Cours complet sur la régression Lasso : formulation, soft-thresholding, interprétation géométrique, comparaison Ridge/Lasso, Elastic Net, lien bayésien. Exercices corrigés.

parValentin Strach

20 avril 2026

11 minutes de lecture

Pas de commentaire

Régression Lasso : régularisation L1 pour le machine learning

La régression Ridge, extension régularisée de la régression linéaire, stabilise l’estimation en contractant tous les coefficients vers 0 sans jamais les annuler.. Pratique pour la stabilité numérique, mais pas suffisant quand on veut savoir quelles variables comptent vraiment. Dès qu’on a des centaines (ou milliers) de features et qu’on soupçonne que la plupart sont inutiles, on voudrait que le modèle fasse lui-même le tri.

La régression Lasso (Least Absolute Shrinkage and Selection Operator), introduite par Robert Tibshirani en 1996, remplace la pénalité $\ell_2$ de Ridge par une pénalité $\ell_1$ . Conséquence géométrique fondamentale : la boule $\ell_1$ a des coins, et la solution Lasso tombe souvent exactement dessus, forçant certains coefficients à être rigoureusement nuls. Lasso fait donc sélection de variables et régularisation en une seule étape.

Cet article reprend la régression Lasso depuis la motivation jusqu’aux applications ML, avec démonstrations, interprétation géométrique, comparaison avec Ridge, interprétation bayésienne laplacienne, et un encadré sur l’Elastic Net. Pour le cadre général de la série, voir le hub Maths pour le Machine Learning.

Table of Contents

Le problème : au-delà de Ridge

Interprétabilité et haute dimension

En pratique, on travaille souvent avec beaucoup plus de variables qu’on ne sait en interpréter. Aussi, en génomique, on peut avoir $p = 20000$ gènes pour $n = 200$ patients. En NLP, le vocabulaire d’un corpus peut grimper à des dizaines de milliers de features. Dans ces situations, l’analyste veut deux choses :

un modèle qui généralise bien (régularisation)
un modèle interprétable, qui pointe les quelques variables réellement utiles.

Ridge répond très bien au premier point, mais pas au second : elle contracte tous les coefficients, sans jamais en mettre un à zéro. Le modèle reste donc « dense » même quand seule une poignée de variables est vraiment informative.

La limite géométrique de Ridge

On a vu dans l’article Ridge que la contrainte $\lVert w \rVert_2 \leq t$ définit un disque parfaitement lisse. La solution régularisée est le point où les ellipses de la MSE touchent ce disque, et comme la frontière du disque n’a aucun coin, le point de contact a presque toujours toutes ses coordonnées non nulles.

Pour forcer des zéros exacts, il faut un domaine anguleux, avec des coins pile sur les axes. C’est exactement ce que fait la boule $\ell_1$ en dimension 2 (un losange), en dimension 3 (un octaèdre), et plus généralement en dimension $p$ .

L’idée centrale du Lasso

Remplacer la pénalité $\lVert w \rVert_2^2$ de Ridge par la pénalité $\lVert w \rVert_1 = \sum_j |w_j|$ . Cette variation, en apparence mineure, change radicalement la géométrie du problème et le comportement de la solution :

la fonction de coût devient non différentiable en chaque point où un coefficient s’annule ;
il n’existe plus de solution analytique fermée ;
mais en contrepartie, la solution est naturellement creuse (sparse).

La régression Lasso : définition

Formulation pénalisée

La régression Lasso minimise l’erreur quadratique plus une pénalité $\ell_1$ sur les coefficients :

\mathcal{L}_{\text{Lasso}}(w) = \lVert y - Xw \rVert_2^2 + \lambda \lVert w \rVert_1

où $\lVert w \rVert_1 = \sum_{j=1}^p |w_j|$ et $\lambda \geq 0$ est l’hyperparamètre de régularisation. On garde la même convention d’erreur quadratique que pour Ridge, pour pouvoir comparer les deux fonctions de coût directement. Pour la définition générale des normes vectorielles, voir l’article dédié.

Comme pour Ridge :

$\lambda = 0$ : on retombe sur l’OLS classique.
$\lambda \to \infty$ : la pénalité domine, et la solution tend vers $w = 0$ .
entre les deux, on obtient un compromis, mais avec une différence majeure : la sparsité progressive.

Non-différentiabilité en 0

La fonction $w \mapsto |w|$ n’est pas dérivable en $w = 0$ : sa dérivée vaut $-1$ à gauche et $+1$ à droite. On travaille donc avec le sous-gradient :

\partial |w| = \begin{cases} {\operatorname{sign}(w)} & \text{si } w \neq 0, \ [-1, 1] & \text{si } w = 0. \end{cases}

Les conditions d’optimalité s’écrivent alors avec des inclusions plutôt que des égalités : $0 \in \partial \mathcal{L}_{\text{Lasso}}(w)$ . C’est précisément cette latitude en $w = 0$ qui permet à la solution d’être exactement nulle sur certaines coordonnées.

Pas de solution analytique fermée

Contrairement à Ridge, le Lasso n’a pas d’expression analytique du type $(X^\top X + \lambda I)^{-1} X^\top y$ dans le cas général. Deux raisons :

la pénalité $\ell_1$ est non différentiable, donc l’annulation du gradient n’est plus un système linéaire ;
les conditions d’optimalité font intervenir les signes des coefficients, qui dépendent de la solution elle-même — on tourne en rond.

Il existe tout de même un cas spécial où la solution se calcule explicitement : celui du design orthonormal (les colonnes de $X$ forment une famille orthonormée). Dans ce cas, le Lasso découple chaque coordonnée et donne la formule du soft-thresholding, qu’on démontre juste après.

Résolution : soft-thresholding et algorithmes

Le cas 1D : la formule de soft-thresholding

Considérons le Lasso avec une seule variable (cas $p = 1$ ). On pose $S = \sum_{i=1}^n x_i^2$ et $z = \sum_{i=1}^n x_i y_i$ . La fonction de coût s’écrit :

\mathcal{L}(w) = S w^2 - 2 z w + \lambda |w| + \text{const}

Les conditions d’optimalité par sous-gradient donnent :

si $w > 0$ : $2 S w - 2 z + \lambda = 0$ , soit $w = (z - \lambda/2)/S$ . Valide si $z > \lambda/2$ .
si $w < 0$ : $2 S w - 2 z - \lambda = 0$ , soit $w = (z + \lambda/2)/S$ . Valide si $z < -\lambda/2$ .
si $|z| \leq \lambda/2$ : alors $w = 0$ est optimal.

On regroupe tout ça dans la formule compacte du soft-thresholding :

\boxed{\hat{w}(\lambda) = \frac{1}{S} \operatorname{sign}(z) \max\big(|z| - \tfrac{\lambda}{2} , 0\big)}

L’opérateur $z \mapsto \operatorname{sign}(z) \max(|z| - \tau, 0)$ est appelé soft-thresholding de seuil $\tau$ : il contracte la valeur vers 0 et la colle exactement à 0 dès que $|z| \leq \tau$ . C’est le mécanisme élémentaire qui produit la sparsité du Lasso.

Le cas orthogonal : soft-thresholding coordonnée par coordonnée

Quand les colonnes de $X$ sont orthonormales ( $X^\top X = I_p$ ), la fonction de coût se découple sur chaque coordonnée : en posant $z = X^\top y$ , on a

\lVert y - Xw \rVert_2^2 = \lVert y \rVert_2^2 - 2 z^\top w + \lVert w \rVert_2^2 = \text{const} + \sum_{j=1}^p (w_j - z_j)^2 - \sum_{j=1}^p z_j^2.

Donc minimiser $\mathcal{L}_{\text{Lasso}}(w)$ revient à minimiser indépendamment $(w_j - z_j)^2 + \lambda |w_j|$ pour chaque $j$ , et le cas 1D s’applique :

\hat{w}_j(\lambda) = \operatorname{sign}(z_j) \max\big(|z_j| - \tfrac{\lambda}{2},0\big).

Toutes les coordonnées $z_j$ telles que $|z_j| \leq \lambda/2$ sont automatiquement envoyées à 0. C’est la sparsité en action.

Le cas général : coordinate descent et LARS

Dans le cas général (colonnes corrélées), il n’y a plus de formule fermée, mais deux algorithmes standards :

Coordinate descent : on met à jour chaque $w_j$ à tour de rôle, en fixant les autres et en résolvant le sous-problème 1D par soft-thresholding. C’est l’algorithme par défaut de scikit-learn (Lasso) ; simple, rapide, et efficace en haute dimension.
LARS (Least Angle Regression) : algorithme dédié qui suit le chemin $\lambda \mapsto \hat{w}(\lambda)$ sur toute la plage de $\lambda$ , en détectant exactement les points d’entrée et de sortie de chaque variable du modèle.

On peut aussi utiliser une descente de sous-gradient ou une descente de gradient proximale, mais ces méthodes sont typiquement plus lentes en pratique.

Interprétation géométrique

Formulation duale sous contrainte

Par la théorie de l’optimisation sous contraintes, le Lasso admet une formulation duale équivalente :

\min_w \lVert y - Xw \rVert_2^2 \quad \text{sous la contrainte} \quad \lVert w \rVert_1 \leq t.

À chaque $\lambda > 0$ correspond un $t(\lambda)$ tel que les deux problèmes ont exactement la même solution. C’est cette forme contrainte qui éclaire la géométrie.

Losange L1 et coins sparses

En dimension 2, la boule $\ell_1$ ${w : |w_1| + |w_2| \leq t}$ est un losange centré en 0, dont les quatre sommets sont sur les axes : $(t, 0)$ , $(0, t)$ , $(-t, 0)$ et $(0, -t)$ .

Comme pour Ridge, la solution est le point du losange le plus proche (au sens de la MSE) de $\hat{w}_{\text{OLS}}$ . On le visualise comme le premier point où les ellipses de la MSE (centrées sur $\hat{w}_{\text{OLS}}$ ) touchent le losange en grossissant :

Solution Lasso : les contours de la MSE touchent le losange L1 sur un coin, forçant un coefficient à zéro

Quand $\hat{w}_{\text{OLS}}$ n’est pas aligné avec un axe, l’ellipse rencontre très souvent le losange sur un de ses coins, et un coin signifie $w_1 = 0$ ou $w_2 = 0$ : l’une des deux coordonnées est exactement nulle. C’est la raison géométrique fondamentale pour laquelle le Lasso produit des solutions creuses. En dimension supérieure, l’argument s’étend : les « coins » et les « arêtes » des faces de la boule $\ell_1$ correspondent à des solutions avec certaines coordonnées exactement nulles.

Intuition : plus λ augmente, plus le losange rétrécit

Quand $\lambda$ est petit, le losange est grand et l’ellipse le touche à un point quelconque, éventuellement sur une face (pas de sparsité). Quand $\lambda$ grandit, le losange rétrécit, et le contact se rapproche de plus en plus d’un coin. Certaines coordonnées « tombent à 0 », puis d’autres. Au-delà d’un certain seuil, tout est à 0.

Ridge vs Lasso : comparaison

La régularisation L2 et la régularisation L1 diffèrent sur plusieurs points structurels. Le tableau ci-dessous résume les différences essentielles.

Critère	Ridge (L2)	Lasso (L1)
Pénalité	$\lambda \lVert w \rVert_2^2$	$\lambda \lVert w \rVert_1$
Solution analytique	oui : $(X^\top X + \lambda I)^{-1} X^\top y$	non (sauf cas orthogonal)
Solution unique	oui dès que $\lambda > 0$	oui si $X$ est de rang plein, non garanti sinon
Sparsité	non (coefficients petits mais non nuls)	oui (certains coefficients exactement 0)
Multicolinéarité	répartit les coefficients entre variables corrélées	choisit arbitrairement l’une des variables corrélées
Prior bayésien associé	gaussien $\mathcal{N}(0, \tau^2 I)$	laplacien
Usage typique	toutes les variables comptent un peu	sélection de variables en haute dimension

Le chemin de régularisation (Lasso path)

Allure des coefficients en fonction de λ

Quand on fait varier $\lambda$ de 0 à l’infini, chaque coefficient $\hat{w}_j(\lambda)$ trace une courbe dans le plan. Pour Ridge, ces courbes sont lisses et tendent asymptotiquement vers 0 sans jamais l’atteindre. Pour le Lasso, le comportement est très différent :

Chemin de régularisation Lasso : coefficients tombant exactement à zéro pour des valeurs croissantes de lambda

chaque courbe est linéaire par morceaux en $\lambda$ (résultat classique, exploité par l’algorithme LARS) ;
chaque coefficient atteint 0 pour une certaine valeur critique $\lambda_j^\star$ , puis reste à 0 ensuite ;
les $\lambda_j^\star$ sont les points d’élimination de chaque variable.

Lire ce graphe, c’est voir le Lasso opérer une sélection de variables progressive : à mesure que $\lambda$ grandit, les variables sortent du modèle une à une, par ordre d’importance décroissante.

Choix de λ en pratique

Comme pour Ridge, la méthode standard est la validation croisée : on teste une grille de valeurs de $\lambda$ (typiquement logarithmique), on calcule l’erreur en validation, et on retient la valeur qui minimise cette erreur. Une variante courante est la règle « one standard error » : on prend le plus grand $\lambda$ dont l’erreur de validation est à moins d’un écart-type du minimum, ce qui privilégie les modèles plus creux au prix d’un petit surcoût d’erreur. On détaillera ces méthodes dans un prochain article de la série consacré à la validation croisée.

Interprétation bayésienne : Lasso = MAP avec prior laplacien

Comme Ridge correspond à un MAP avec prior gaussien, le Lasso correspond à un MAP avec prior laplacien. C’est le pont entre la régularisation $\ell_1$ et l’inférence bayésienne.

Le modèle probabiliste

On reprend le modèle linéaire gaussien :

y = X w + \varepsilon, \qquad \varepsilon \sim \mathcal{N}(0, \sigma^2 I).

La vraisemblance vaut (voir maximum de vraisemblance) :

p(y \mid w) \propto \exp\left(-\frac{1}{2\sigma^2} \lVert y - Xw \rVert_2^2\right).

On place cette fois un prior laplacien indépendant sur chaque coefficient :

p(w_j) = \frac{1}{2b} \exp\left(-\frac{|w_j|}{b}\right), \qquad p(w) \propto \exp\left(-\frac{\lVert w \rVert_1}{b}\right).

La densité laplacienne est un « pic » centré en 0, plus piqué que la gaussienne : elle traduit la croyance a priori qu’une grande partie des coefficients est exactement, ou très proche de, 0.

Dérivation : MAP = Lasso

Par le théorème de Bayes :

p(w \mid y) \propto p(y \mid w) , p(w) \propto \exp\left(-\frac{1}{2\sigma^2} \lVert y - Xw \rVert_2^2 - \frac{\lVert w \rVert_1}{b}\right).

En passant au log et en minimisant l’opposé :

-\log p(w \mid y) = \frac{1}{2\sigma^2} \lVert y - Xw \rVert_2^2 + \frac{1}{b} \lVert w \rVert_1 + \text{const}.

En multipliant par $2\sigma^2$ (ce qui ne change pas l’argmin), on retrouve exactement la fonction de coût Lasso avec :

\boxed{\lambda = \frac{2 \sigma^2}{b}}

L’estimateur Lasso est donc l’estimateur MAP (Maximum A Posteriori) avec un prior laplacien centré. Un prior très piqué (petit $b$ ) donne un $\lambda$ grand — on « croit » beaucoup à la sparsité. Un prior étalé (grand $b$ ) donne un $\lambda$ petit — on laisse les coefficients libres.

Combinée avec l’interprétation gaussienne de Ridge, cette vision bayésienne unifie toutes les régularisations classiques : chaque choix de pénalité encode une croyance a priori sur la distribution des coefficients. C’est un des points de départ des statistiques bayésiennes, qu’on traitera dans un prochain article.

Elastic Net : combiner L1 et L2

Le Lasso a deux défauts connus :

quand deux variables sont fortement corrélées, le Lasso en choisit une presque au hasard et met l’autre à 0, ce qui rend la sélection instable ;
quand $p > n$ , le Lasso sélectionne au plus $n$ variables — une limite structurelle parfois gênante en très haute dimension.

L’Elastic Net, proposé par Zou et Hastie en 2005, combine les deux pénalités pour cumuler les avantages :

\mathcal{L}_{\text{EN}}(w) = \lVert y - Xw \rVert_2^2 + \lambda_1 \lVert w \rVert_1 + \lambda_2 \lVert w \rVert_2^2.

On paramètre souvent via $\lambda \geq 0$ (force globale) et $\alpha \in [0, 1]$ (mix) : $\lambda_1 = \lambda \alpha$ , $\lambda_2 = \lambda (1 - \alpha) / 2$ . Avec $\alpha = 1$ , on retrouve Lasso ; avec $\alpha = 0$ , Ridge.

Avantages de l’Elastic Net :

la composante $\ell_2$ stabilise la sélection : deux variables très corrélées sont désormais sélectionnées ou éliminées ensemble (« effet groupe ») ;
la solution est unique dès que $\lambda_2 > 0$ , même quand $X^\top X$ est singulière ;
on peut sélectionner plus de $n$ variables, utile en génomique.

C’est souvent l’outil par défaut quand on soupçonne des groupes de features corrélées, typique dans les problèmes « p ≫ n » en biologie et en signal.

Applications en machine learning

Sélection automatique de variables

L’usage emblématique du Lasso : partir de centaines ou milliers de features, et laisser le modèle ne garder que celles qui expliquent vraiment la cible. C’est systématique en :

génomique : sélectionner parmi des milliers de gènes ceux qui sont associés à une maladie ;
finance quantitative : réduire un panier de signaux de marché à une poignée prédictive ;
NLP basique : sélectionner les n-grammes les plus discriminants pour une classification de texte.

Compressed sensing

En traitement du signal, le Lasso (appelé dans ce cadre basis pursuit denoising) permet de reconstruire un signal parcimonieux à partir de peu de mesures, quand le signal est sparse dans une base (ondelettes, DCT). C’est la base théorique du compressed sensing (Candès, Donoho, Tao), avec des applications en IRM, en astronomie, en compression d’images.

Régularisation sparse en deep learning

Même si les réseaux de neurones modernes utilisent plutôt la régularisation $\ell_2$ (weight decay) ou le dropout, la régularisation $\ell_1$ apparaît dans deux contextes : l’induction de sparsité sur les poids (pour l’élagage de réseaux, le pruning) et les autoencodeurs sparses, où on veut que seules quelques neurones cachés soient actifs à la fois.

Exercices corrigés

Exercice 1 : Lasso 1D et soft-thresholding

Énoncé. On reprend les données $(x_i, y_i)$ de l’exercice Ridge : $x = (1, 2, 3)$ et $y = (3, 6, 9)$ (sans intercept). Dériver par sous-gradient la formule $\hat{w}(\lambda)$ , puis calculer $\hat{w}(0)$ , $\hat{w}(14)$ , $\hat{w}(42)$ et $\hat{w}(84)$ . Comparer à l’estimateur Ridge.

Corrigé. La fonction de coût vaut $\mathcal{L}(w) = \sum (y_i - x_i w)^2 + \lambda |w| = S w^2 - 2 z w + \lambda |w| + \text{const}$ , avec $S = \sum x_i^2 = 14$ et $z = \sum x_i y_i = 42$ .

Par sous-gradient :

pour $w > 0$ : $2 S w - 2 z + \lambda = 0 \Rightarrow w = (z - \lambda/2)/S$ , valable si $z > \lambda/2$ .
pour $w < 0$ : $2 S w - 2 z - \lambda = 0 \Rightarrow w = (z + \lambda/2)/S$ , valable si $z < -\lambda/2$ .
pour $|z| \leq \lambda/2$ : $w = 0$ .

Comme $z = 42 > 0$ , on est dans le premier ou troisième régime :

\hat{w}(\lambda) = \frac{\max(z - \lambda/2, 0)}{S} = \frac{\max(42 - \lambda/2, 0)}{14}.

Applications numériques :

$\hat{w}(0) = 42/14 = 3$ (l’OLS, exact puisque $y = 3x$ ) ;
$\hat{w}(14) = (42 - 7)/14 = 35/14 = 2{,}5$ ;
$\hat{w}(42) = (42 - 21)/14 = 21/14 = 1{,}5$ ;
$\hat{w}(84) = \max(42 - 42, 0)/14 = 0$ (seuil critique).

Comparaison Ridge. Pour les mêmes $\lambda$ , Ridge donne $\hat{w}_{\text{Ridge}}(\lambda) = 42/(14 + \lambda)$ , soit $\hat{w}(14) = 3/2 = 1{,}5$ , $\hat{w}(42) = 42/56 = 0{,}75$ , $\hat{w}(84) \approx 0{,}43$ . Ridge contracte plus doucement mais n’atteint jamais 0 ; Lasso contracte linéairement et atteint 0 au seuil $\lambda = 2 z = 84$ .

Exercice 2 : Sparsité en dimension 2 (design orthonormal)

Énoncé. Soient $X$ une matrice à deux colonnes orthonormales ( $X^\top X = I_2$ ) et $y$ tel que $z = X^\top y = (2; 0{,}5)$ . Calculer $\hat{w}^{\text{Lasso}}(\lambda)$ pour $\lambda = 0{,}5$ , $\lambda = 1{,}2$ et $\lambda = 4$ . Commenter la sparsité.

Corrigé. Les colonnes de $X$ étant orthonormales, le Lasso se découple coordonnée par coordonnée avec la formule de soft-thresholding :

\hat{w}_j(\lambda) = \operatorname{sign}(z_j) \max\big(|z_j| - \lambda/2 ,0\big).

Avec $z_1 = 2$ et $z_2 = 0{,}5$ :

$\lambda = 0{,}5$ ( $\lambda/2 = 0{,}25$ ) : $\hat{w}_1 = 2 - 0{,}25 = 1{,}75$ , $\hat{w}_2 = 0{,}5 - 0{,}25 = 0{,}25$ . Aucun coefficient nul.
$\lambda = 1{,}2$ ( $\lambda/2 = 0{,}6$ ) : $\hat{w}_1 = 2 - 0{,}6 = 1{,}4$ , $\hat{w}_2 = \max(0{,}5 - 0{,}6, 0) = 0$ . La deuxième variable est éliminée.
$\lambda = 4$ ( $\lambda/2 = 2$ ) : $\hat{w}_1 = \max(2 - 2, 0) = 0$ , $\hat{w}_2 = 0$ . Toutes les variables sont éliminées.

Géométriquement, le seuil $\lambda/2 = |z_j|$ est exactement celui où la coordonnée $j$ quitte le modèle. Plus $|z_j|$ est petit (direction peu « alignée » avec la cible), plus la variable tombe tôt. Ici $z_2 = 0{,}5$ est petit, donc $w_2$ sort dès $\lambda = 1$ , alors que $z_1 = 2$ est plus grand, donc $w_1$ ne sort qu’à $\lambda = 4$ .

Exercice 3 : Elastic Net comme Lasso sur données augmentées

Énoncé. Soit le problème Elastic Net

\min_{w \in \mathbb{R}^p} ; \lVert y - Xw \rVert_2^2 + \lambda_1 \lVert w \rVert_1 + \lambda_2 \lVert w \rVert_2^2

avec $\lambda_1, \lambda_2 > 0$ . On construit les données augmentées :

\tilde{X} = \left(\begin{array}{c} X \\ \sqrt{\lambda_2} I_p \end{array}\right) \in \mathbb{R}^{(n+p) \times p}, \qquad \tilde{y} = \left(\begin{array}{c} y \\ 0 \end{array}\right) \in \mathbb{R}^{n+p}.

Montrer que l’Elastic Net est équivalent au Lasso appliqué à $(\tilde{X}, \tilde{y})$ avec hyperparamètre $\lambda_1$ . En déduire qu’Elastic Net admet toujours une solution unique dès que $\lambda_2 > 0$ .

Corrigé. Calculons la perte quadratique augmentée :

\lVert \tilde{y} - \tilde{X} w \rVert_2^2 = \left\lVert \left(\begin{array}{c} y - Xw \\ -\sqrt{\lambda_2} w \end{array}\right) \right\rVert_2^2 = \lVert y - Xw \rVert_2^2 + \lambda_2 \lVert w \rVert_2^2.

Donc

\lVert \tilde{y} - \tilde{X} w \rVert_2^2 + \lambda_1 \lVert w \rVert_1 = \lVert y - Xw \rVert_2^2 + \lambda_2 \lVert w \rVert_2^2 + \lambda_1 \lVert w \rVert_1 = \mathcal{L}_{\text{EN}}(w).

Les deux problèmes ont donc le même minimiseur. L’Elastic Net se ramène à un Lasso sur données augmentées, ce qui permet en pratique d’utiliser n’importe quel solveur Lasso (coordinate descent, LARS) pour résoudre l’Elastic Net.

Unicité. La matrice augmentée $\tilde{X}$ a toujours rang $p$ , puisque $\tilde{X}^\top \tilde{X} = X^\top X + \lambda_2 I$ , qui est définie positive dès que $\lambda_2 > 0$ — toutes ses valeurs propres sont strictement positives, donc $\tilde{X}$ est injective. La fonction de coût $\lVert \tilde{y} - \tilde{X} w \rVert_2^2$ est alors strictement convexe en $w$ , et l’ajout de la pénalité convexe $\lambda_1 \lVert w \rVert_1$ préserve la stricte convexité. D’où l’unicité de la solution Elastic Net.

Exercices d’entraînement

Soient $x = (-2, -1, 0, 1, 2)$ et $y = (-3, -1, 0, 2, 4)$ . Calculer $S$ et $z$ , puis $\hat{w}_{\text{Lasso}}(\lambda)$ . Pour quelle valeur de $\lambda$ a-t-on $\hat{w} = 0$ ? Comparer au seuil OLS $\hat{w}(0)$ .
On modélise $y = Xw + \varepsilon$ avec $\varepsilon \sim \mathcal{N}(0, \sigma^2 I)$ et on place un prior laplacien $p(w_j) = \frac{1}{2b} \exp(-|w_j|/b)$ indépendant sur chaque coordonnée. Montrer que l’estimateur MAP coïncide avec l’estimateur Lasso, et exprimer $\lambda$ en fonction de $\sigma$ et $b$ .
On considère deux colonnes de $X$ strictement identiques : $x^{(1)} = x^{(2)}$ . Montrer qu’il existe une infinité de solutions Lasso de la forme $(w_1, w_2) = (\alpha \hat{w}^\star, (1 - \alpha) \hat{w}^\star)$ avec $\alpha \in [0, 1]$ et $\hat{w}^\star$ fixé. Commenter l’instabilité du Lasso dans ce cas, et expliquer pourquoi l’Elastic Net ( $\lambda_2 > 0$ ) restaure l’unicité.

FAQ

Qu’est-ce que la régression Lasso ?

La régression Lasso est une régression linéaire pénalisée : on ajoute à l’erreur quadratique usuelle un terme proportionnel à la norme L1 des coefficients, soit λ × Σ|wⱼ|. Cette pénalité a une particularité géométrique : la boule L1 a des coins, et la solution tombe souvent exactement dessus, ce qui force certains coefficients à être rigoureusement nuls. Lasso combine donc régularisation et sélection automatique de variables en une seule étape. Elle est particulièrement utile en haute dimension (beaucoup plus de variables que d’observations).

Pourquoi Lasso produit-il des coefficients nuls ?

C’est une conséquence géométrique de la contrainte ‖w‖₁ ≤ t. En dimension 2, cette contrainte définit un losange dont les quatre coins sont pile sur les axes. La solution Lasso est le point du losange le plus proche (au sens de la MSE) de l’estimateur des moindres carrés. Comme les coins sont des points « privilégiés » du losange, le point de contact entre les ellipses de la MSE et le losange tombe très souvent sur un coin, donc sur un axe, donc avec une coordonnée exactement nulle. En dimension supérieure, le phénomène se généralise aux faces et arêtes de la boule L1.

Quelle différence entre Ridge et Lasso ?

Ridge utilise la norme L2 (somme des carrés des wⱼ), Lasso la norme L1 (somme des valeurs absolues). Conséquence : Ridge contracte tous les coefficients vers 0 sans jamais les annuler exactement, alors que Lasso en annule une partie de manière rigoureuse. Ridge répartit les coefficients entre variables corrélées, Lasso en choisit souvent arbitrairement une. Ridge a une formule analytique fermée, Lasso non. On préfère Ridge quand on pense que toutes les variables comptent un peu, et Lasso quand on soupçonne que beaucoup sont inutiles et qu’on veut un modèle interprétable.

Qu’est-ce qu’Elastic Net ?

L’Elastic Net est une régularisation qui combine L1 et L2 : on pénalise à la fois λ₁ × ‖w‖₁ et λ₂ × ‖w‖². Elle cumule les avantages des deux : sparsité du Lasso (sélection de variables) et stabilité de Ridge (répartition des coefficients entre variables corrélées). En pratique, quand deux variables sont fortement corrélées, le Lasso en choisit une presque au hasard alors que l’Elastic Net les garde ensemble (effet groupe). C’est l’outil par défaut en haute dimension avec des groupes de features corrélées, typiquement en génomique.