Le projet de Data Mining
- La problématique du Data Scientist : de la donnée à l’information.
- Le vocabulaire et les concepts.
- L’exploration descriptive du jeu de données.
- Les métadonnées pour le suivi du projet de Data Mining.
- Rappels sur le logiciel R.
Travaux pratiques
Utilisation de R. Caractérisation descriptive, définition et saisie des métadonnées d'un jeu de données.
Les techniques de l’approche Data Mining
- Méthode basée sur la classification : identification de groupes d’individus statistiques.
- Méthode par association : mise en évidence d’une cause et d’une conséquence.
- Méthode de l’estimation : complément d’un effectif ou d’une fréquence d’un jeu de données.
- Apports du Data Mining pour le traitement des grandes volumétries de données.
- Méthode de segmentation : définition de critères, extension de la méthode de classification et principe des k-means.
- Méthode de prévision : importance de la temporalité et des hypothèses.
Travaux pratiques
Appréhender les différentes méthodes en fonction des besoins exprimés.
Les outils statistiques
- Méthodes descriptives : corrélation, classification, réseaux de Kohonen, règles d’association.
- Méthodes prédictives : régression, arbres de décision, réseaux de neurones, les K plus proches voisins.
- Mise en œuvre de classification par k-means et CAH (Classification Ascendante Hiérarchique).
- Principe des méthodes supervisées.
Travaux pratiques
Mise en pratique des différentes méthodes sous R.
La visualisation des données
- Les objectifs de la visualisation des données.
- Les différents types de représentations de données quantitatives.
- Concevoir des tableaux de bord.
Travaux pratiques
Création d’un tableau de bord avec R en utilisant des données quantitatives. Représentation de données quantitatives et de données qualitatives avec R.
Analyse de données qualitatives et textuelles
- Spécificités de la problématique et les alternatives (Analyse Factorielle des Correspondances, table de contingence).
- Présentation d’instanciation, de pattern, de vecteur et d’heuristique.
- Comment utiliser un espace de vecteurs, d’indexation, de scoring.
- Différents types de transformations et traitement d’un document textuel.
Travaux pratiques
Réalisation d’un traitement de données qualitatives et de données textuelles sous R.