K moyennes.
Identifier des groupes (clusters) dans un ensemble de données.
L'algorithme des K-moyennes est un algorithme de ML non supervisé qui va associer à chaque point de `X` un groupe `{1..K}`.
L'algorithme des K-moyennes consiste à associer des points à des groupes en fonction de leur distance à leurs barycentres (centroids) :
Pour déterminer le groupe (cluster) appartient (en attendant la convergence) chaque point `x^((i))` (avec `i` de 1 à `m`), on va chercher de quel barycentre `μ_k` il est le plus proche. On affectera alors à `c^((i))` l'indice du `k` groupe trouvé (par conséquent `μ_(c^((i)))` représente le barycentre auquel `x^((i))` est affecté).
Mathématiquement, cette opération revient à minimiser la fonction de coût suivante (dite "fonction de distorsion") sans changer les `μ_k` :
`J(c^((1)),…,c^((m)),μ_1,…,μ_K) = 1/m sum_(i=1)^m norm(x^((i))-μ_(c^((i))))^2`
Déterminer pour chacun des K groupes `μ_k` qui est la moyenne des points (le nouveau barycentre) affectés au groupe `k` :
`μ_k:= 1/abs(Ck) sum_(i∈C_k)x^((i))` où `C_k` est l'ensemble de points affectés au barycentre `k`
Mathématiquement, cette opération revient à minimiser `J` par rapport aux `μ_k`.
Des exemples d'application de K-Means sont :