Trouver les valeurs optimales de paramètres d'une hypothèse sans itérer.
On sait que minimiser une fonction consiste à trouver quand sa dérivée est nulle. On va donc résoudre analytiquement la dérivée de `J(θ) = 0`.
qui trouve les valeurs optimales en un calcul matriciel s1"Derivation of the Normal Equation for linear regression", :
`θ=(X^TX)^(−1)X^Ty`
Sa complexité en `O(n^3)` fait qu'il n'est pas recommandé si `n` est grand (> 10000). A noter aussi que ce calcul n'est faisable que si `X` est inversible (i.e. `m > n`). On lui préfèrera alors la descente de gradient.