Régression linéaire

Motivation

Déterminer si une variable quantitative (y) à une influence sur une autre (x)
Prédire un résultat (numérique) en fonction d'un ensemble de données connues

Analyse

La régression linéaire consiste à déterminer une fonction linéaire (et donc continue sur $ℝ$ ) capable de :

reproduire des résultats passés
prédire des résultats futurs

Exemple de régression linéaire à partir de points

Si l'on considère :

$X$ une matrice de $m \times n$ caractéristiques (features), i.e. des lignes de données connues
$y$ un vecteur de $m$ résultats connus

Ce type de régression consiste à déterminer la fonction hypothèse $h_{Θ} (x) = Θ_{0} + x_{1} Θ_{1} + x_{2} Θ_{2} + ... + x_{n} Θ_{n}$ dont les points sont les moins éloignés des valeurs réelles (connues du passé) pour espérer pouvoir en prédire des valeurs futures. Autrement dit déterminer les paramètres $Θ_{0}, Θ_{1}, ..., Θ_{n}$ qui permettent à la fonction linéaire $h$ d'avoir des points ayant une distance/différence minimale avec les points "réels" (connus).

$Θ_{0}$ qui ne dépend pas d'une variable, est une constante appelée biais (bias) ou intersection (de la fonction avec l'axe des ordonnées en $h_{Θ} (0)$ ).

Les cas les plus courants ne requièrent cependant que 1 ( $Θ_{0} + x Θ_{1}$ ) ou 2 paramètres ( $Θ_{0} + x_{1} Θ_{1} + x_{2} Θ_{2}$ ). S'il est besoin de représenter des fonctions plus complexes (typiquement si la fonction hypothèse ne correspond pas assez aux données ou en cas de surapprentissage), on recourra aux régression non-linéaires.

Conception

On cherche à trouver les $Θ$ ( $Θ_{0}, Θ_{1}$ ...) optimaux selon une méthode adaptée :

analytique via une équation normale si $n$ est petit (< 10000) et $X$ inversible .
itérative autrement.

La méthode itérative consiste à fournir à l'algorithme de descente de gradient une fonction de coût $J (Θ)$ permettant de calculer la différence entre $h$ et $y$ suivant de plus ou moins bons paramètres $Θ$ .

Coût

Comme les erreurs peuvent être positives ou négatives et que nous ne sommes intéressés que par l'écart/distance, on élève cette erreur au carré afin de le garantir toujours positif n1On pourrait théoriquement utiliser une fonction de valeur absolue à la place mais cela transformerait le résultat. On annule/compense ensuite la mise au carré n2On parlera ici aussi de "fonction d'erreur carrée" (squared error function) des erreurs en multipliant par 1/2 (ce qui annulera la dérivée de $x^{2}$ qui est $2 x$ ) :

$J (Θ) = \frac{1}{2 m} \sum_{i = 1}^{m} {(h_{Θ} (x^{(i)}) - y^{(i)})}^{2}$

ou en version vectorisée (en utilisant le calcul matriciel) :

$J (Θ) = \frac{1}{2 m} {(X Θ - \vec{y})}^{T} (X Θ - \vec{y})$

Vectorisation

Afin de gagner en performance et simplicité d'écriture on peut réécrire la formule d'hypothèse sous forme de multiplication de matrices $Θ$ et $x$ (une ligne de $X$ ). Afin de conserver la constante $Θ_{0}$ , on définira $x_{0}$ = 1 :

$Θ = [\begin{matrix} Θ_{0} \\ Θ_{1} \\ Θ_{2} \\ ⋮ \\ Θ_{n} \end{matrix}]$ , $x = [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]$

Cependant on ne peut multiplier une matrice $1 \times (n + 1)$ que par une matrice $(n + 1) \times 1$ , et il faut donc transposer $Θ$ pour obtenir le calcul attendu :

$Θ^{T} = [Θ_{0}, Θ_{1}, Θ_{2}, ..., Θ_{n}]$ , $x = [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ ⋮ \\ x_{n} \end{matrix}]$

Ainsi :

$h_{Θ} (x) = Θ^{T} x$

$h_{Θ} (x) = x_{0} Θ_{0} + x_{1} Θ_{1} + x_{2} Θ_{2} + ... + x_{n} Θ_{n}$ (le calcul recherché)

Cependant au niveau de l'ensemble du training set $X$ (ou design matrix), les $x^{(i)}$ ne sont pas des vecteurs mais des lignes, de sorte qu'on doive plutôt y stocker des ${(x^{(i)})}^{T}$ s :

$X = [\begin{matrix} {(x^{(0)})}^{T} \\ {(x^{(1)})}^{T} \\ ⋮ \\ {(x^{(m)})}^{T} \end{matrix}]$

Comme le vecteur $x$ est déjà transposé de par sa notation en ligne, $Θ$ ne doit plus l'être pour que leur multiplication s'opère. Cela reste équivalent car les 2 étant des vecteurs, $Θ^{T} x = x^{T} Θ$ .

Le calcul recherché peut alors être effectué pour toutes les lignes de la matrice en multipliant $X$ par le vecteur $Θ$ :

$h_{Θ} = [\begin{matrix} {(x^{(0)})}^{T} Θ \\ {(x^{(1)})}^{T} Θ \\ ⋮ \\ {(x^{(m)})}^{T} Θ \end{matrix}]$

$h_{Θ} = X Θ$

Notes

Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au plus tôt des difficultés dans les données : dissymétrie des distributions, valeurs atypiques, liaison non linéaire entre les variables.
Le modèle suppose implicitement une notion préalable de causalité dans le sens où Y dépend de X car le modèle n’est pas symétrique (i.e. X ne dépend pas forcément de Y).

Exemples

En ML, la régression linéaire permet de produire une fonction continue à partir de données connues, qui permet de prédire des valeurs probables pour d'autres valeurs de x ou y.