1
Comprendre les concepts et les enjeux du big data
- Origines et définition du big data.
- Les chiffres clés du marché dans le monde et en France.
- Les enjeux du big data : Return on investment (ROI), organisation, confidentialité des données.
- Un exemple d'architecture big data.
2
Les technologies du big data
- Description de l'architecture et des composants de la plateforme Hadoop.
- Les modes de stockage (NoSQL, HDFS).
- Principes de fonctionnement de MapReduce, Spark, Storm...
- Principales distributions du marché (Hortonworks, Cloudera, MapR, Elastic Map Reduce, Biginsights).
- Installer une plateforme Hadoop.
- Les technologies du datascientist.
- Présentation des technologies spécifiques pour le big data (Tableau, Talend, QlikView...).
Exercice
Installation d'une plateforme big data Hadoop (via Cloudera QuickStart ou autre).
3
Gérer les données structurées et non structurées
- Principes de fonctionnement de Hadoop Distributed File System (HDFS).
- Importer des données externes vers HDFS.
- Réaliser des requêtes SQL avec Hive.
- Utiliser Pig pour traiter la donnée.
- Le principe des ETL (Talend).
- Gestion de streaming de données massive (NIFI, Kafka, Spark, Storm...)
Exercice
Implémentation de flux de données massives.
4
Technique et méthodes big data analytics
- machine learning, une composante de l'intelligence artificielle.
- Découvrir les trois familles : régression, classification et clustering.
- La préparation des données (data preparation, feature engineering).
- Générer des modèles en R ou Python.
- Ensemble learning.
- Découvrir les outils du marché : Jupyter Notebook, Dataïku, Amazon Machine Learning...
Exercice
Mise en place d'analyses avec un des outils étudiés.
5
Data visualisation et cas d'usage concrets
- Définir le besoin de la data visualisation.
- Analyse et visualisation des données.
- Peut concerner tous les types de données dans la dataviz
?
- Les outils dataviz du marché.
Exercice
Installation et utilisation d'un outil de data visualisation pour constituer des analyses dynamiques.
6
Conclusion
- Ce qu'il faut retenir.
- Synthèse des bonnes pratiques.
- Bibliographie.