*M2 MIGS -- Statistique pour les big data -- Université de Bourgogne -- 2022-2023*

# Travaux pratiques 2 : Chemin des solutions de l'estimateur LASSO

**Ces travaux pratiques sont notés. Durée : 3h, tous les documents autorisés, usage d'internet autorisé (sauf pour communiquer avec un étudiant ou une autre perssonne).** A la fin de la séance il faudra envoyer ce document avec pour titre : "TP_Big_Data_NOM_Prénom" à Patrick.Tardivel@u-bourgogne.fr  

In [1]:
# on importe les modules numpy et pyplot
import numpy as np
import matplotlib.pyplot as plt
from math import sqrt
import PIL

%matplotlib inline

**Dans le cellule ci-dessous ajouter votre code permettant de résoudre le problème LASSO :**

## Exercice 1 

On sonsidère la matrice $X=\begin{pmatrix} 4 & 2 & 1\end{pmatrix}$, $y=4$ et $\lambda=2$. 

**1** Déterminer le polyèdre nul du LASSO $\{r\in \mathbb{R}: \|X^Tr\|_\infty\}$ et donner le résidu $\hat r$ du LASSO.

**2** En déduire la solution du LASSO $$\min_{b\in \mathbb{R}^3}\left\{ \frac{1}{2}\|y-Xb\|_2^2+\lambda\|b\|_1\right\}$$ à la main.

Répondre aux questions 1 et 2 dans cette cellule.

**3** Vérifier la solution obtenue avec votre méthode de résolution numérique numérique

In [3]:
# Solution numérique (si votre ne code ne fonctionne contactez-moi)

## Exercice 2 : Comparing Ridge and LASSO estimators for data analysis

### Première partie : Analyse de l'article

L'article  "Comparing Ridge and LASSO estimators for data analysis" est un acte de conférence ; c'est-à-dire que ce court papier est un support écrit qui accompagne une présentation à la conférence internationale :
"Information Technology and Nanotechnology". Quelques questions liées à cet article sont listées ci-dessous :

**1)** On considère le modèle de régression linéaire ${\bf Y}={\bf XB}+\mathcal{E}$. Rappeler l'expression explicite de l'estimateur des moindres carrés. Quelle hypothèse est faîte sur ${\bf X}$ pour que cet estimateur soit bien défini ? D'après les auteurs quel défaut peut avoir l'estimateur des moindres carrés ?

**2)** Soit $\lambda> 0$, l'estimateur ridge est défini par 
$$\widetilde{\bf B}_\lambda :=\underset{B\in \mathbb{R}^k}{\rm argmin}\,\|{\bf V}-{\bf W}B\|_2^2+\lambda \|B\|_2^2.$$
L'expression explicite de l'estimateur ridge est donnée dans ce papier. Rappeler cette expression.   

**3)** D'après les auteurs, quelle est la différence principale entre l'estimateur ridge et l'estimateur LASSO ? 

### Deuxième partie : chemin des solution du LASSO

Le but des questions suivantes est de construire le chemin des solutions du LASSO (il me semble que le chemin des solutions du LASSO donné à la figure 1 de l'article est faux). On rappelle que  le chemin des solutions du LASSO est la fonction 
$\lambda>0\mapsto \widetilde{\bf B}_\lambda$ où $\widetilde{\bf B}_\lambda$ est l'unique solution du problème LASSO :
$$\widetilde{\bf B}_\lambda :=\underset{B\in \mathbb{R}^k}{\rm argmin}\,\frac{1}{2}\|{\bf V}-{\bf W}B\|_2^2+\lambda \|B\|_1.$$

In [7]:
import pandas as pd
wine = pd.read_csv("winequality-red.csv", sep=';')
wine

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
1,7.8,0.880,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5
2,7.8,0.760,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5
3,11.2,0.280,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6
4,7.4,0.700,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1594,6.2,0.600,0.08,2.0,0.090,32.0,44.0,0.99490,3.45,0.58,10.5,5
1595,5.9,0.550,0.10,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,6
1596,6.3,0.510,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,6
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,5


In [13]:
# Standardisation des données

y = wine.to_numpy()[:,11]
y_mean = np.mean(y)
y_std = np.std(y)
V = (y-y_mean)/(sqrt(1599)*y_std)

X = wine.to_numpy()[:,0:11]
X_mean = np.mean(X, axis=0)
X_std = np.std(X, axis=0)
W = np.hstack((np.ones((1599,1)),(X-X_mean)/(sqrt(1599)*X_std)))

**4)** Calculer $\lambda_{\max}=\|{\bf W}^T{\bf V}\|_{\infty}$. Que peut-on dire de l'estimateur LASSO lorsque $\lambda \ge \lambda_{\max}$. 

**5)** On pose $\widetilde B_\lambda$ l'unique solution du problème LASSO pour le paramètre de régularisation $\lambda$. Construire le chemin des solutions de l'estimateur LASSO $\widetilde B_\lambda$, c'est-à-dire tracer sur un même graphique les courbes des douze composantes de cet estimateur :
    $$ \lambda>0\mapsto [\widetilde B_\lambda]_i \text{ pour }i=0, \dots, 11.$$
Pour ce graphique on discrétisera l'intervalle $[ 0,001\lambda_\max ; 1,2\lambda_\max]$ en 1000 points.

**6)** Sur le même graphique  ajouter les points de coordonnées $(0,\widehat {\bf B}_i)$ où $\widehat {\bf B}$ est l'estimateur des moindres carrés de ${\bf B}$ calculé avec ${\bf W}$ et ${\bf V}$. Que remarquez-vous ? Justifier votre commentaire. 

### Troisième partie : choix du paramètre de régularisation pour minimiser l'erreur de prédiction

L'erreur de prédiction de l'estimateur LASSO est $\mathbb{E}(\|W\widetilde B_\lambda - \mathbb{E}(V)\|^2_2)$. La formule SURE (Stein Unbiased Risk Estimate), facilement calculable, fournit un estimateur sans biais de l'erreur de prédiction du LASSO : $\|V-W\widetilde B_\lambda\|_2^2 - n \sigma^2 + 2\sigma^2 \|\widetilde B_\lambda\|_0$. Afin d'appliquer cette formule on doit dans un premier temps estimer $\sigma^2$. 

**7)** A partir de l'estimateur des moindres carrés, donner une estimation de $\sigma^2$. 

**8)** Quel paramètre de régularisation $\lambda$ appartenant discrétisation de l'intervalle $[ 0,001\lambda_\max ; 1,2\lambda_\max]$
 minimise la formule SURE ? Pour ce paramètre de régularisation, quelles sont les variables explicatives non sélectionnées par l'estimateur LASSO ?  