Science des données

Data science.

Motivation

Extraire des connaissances d'un ensemble de données.

Analyse

L'analyse des données est un travail pouvant aboutir à des projets de prédiction, d'autant plus efficaces qu'ils se seront entraînés sur de gros volumes de données.

Conception

Il n'y a pas de processus de data science figé mais un standard souvent adopté en la matière est CRISP :

  1. Compréhension du métier : il est impossible de comprendre les données sans comprendre les processus métiers qui les ont générées
  2. Compréhension des données : exploration et sélection de données
  3. Préparation des données (feature engineering, rééchelonnage, etc.)
  4. Analyse/modélisation : sélection et paramétrage des algorithmes d'apprentissage
  5. Évaluation/validation : métriques d'évaluation, test à l'aveugle
  6. Présentation/visualisation des résultats auprès du métier et éventuel déploiement d'une automatisation si satisfaisant
  7. Surveillance (monitoring) du modèle pour éviter qu'il dérive.

Exemples

Des exemples de frameworks de data science sont :