Déterminer si une variable quantitative (y) à une influence sur une autre (x)
Prédire une valeur de y en fonction d'une valeur de x
Analyse
Soit :
`X` une matrice de `m xx n` caractéristiques (features)
`y` un vecteur de données résultantes connues
Ce type de régression consiste à déterminer la
fonction hypothèse `h_Θ(x) = Θ_0 + xΘ_1` dont les points sont les moins éloignés des valeurs
réelles. Autrement dit déterminer les paramètres `Θ_0` et `Θ_1` qui permettent à la fonction
linéaire h d'avoir des points ayant une distance/différence minimale avec les points "réels" (connus).
Conception
On détermine une fonction de coût permettant de calculer la différence
entre h et y
On cherche à trouver `Θ_0` et `Θ_1` selon une méthode adaptée :
Equation normale si `n` est
relativement petit (< 1000) et si la matrice X est inversible (i.e. si m > n)
Notes
Avant tout travail de modélisation, une approche descriptive ou exploratoire est nécessaire pour dépister au
plus tôt des difficultés dans les données : dissymétrie des distributions, valeurs atypiques, liaison non linéaire
entre les variables.
Le modèle suppose implicitement une notion préalable de causalité dans le sens où Y dépend de X
car le modèle n’est pas symétrique (i.e. X ne dépend pas forcément de Y).