Réalisez des calculs distribués sur des données massives
Offered By: CentraleSupélec via OpenClassrooms
Course Description
Overview
Que faire lorsque la complexité de vos applications dépasse votre capacité de calcul ? La solution consiste à distribuer les calculs sur un cluster constitué de plusieurs machines, mais faut-il pour cela avoir un supercalculateur dans son garage ? Non ! Aujourd'hui, le cluster computing est à la portée de tous grâce à MapReduce, qui permet de créer facilement des applications distribuées, et au cloud, qui fournit des ressources de calculs pratiquement infinies pour un coût modique.
C'est le rôle des Data Architects de déployer des clusters de calculs permettant de réaliser des analyses complexes sur des données massives. Pour cela, nous verrons ensemble comment écrire des applications distribuées avec Hadoop MapReduce et Spark, éléments essentiels de la boîte à outil des Data Architects. À l'issue de ce cours, vous serez en mesure de lancer des calculs distribués sur des clusters contenant des dizaines de machines à l'aide d'Amazon Web Services.
Vous voulez faire du Big Data sans blabla ? Alors on y va !
Prérequis :
Algorithmique
- Estimation et optimisation de complexité en temps et espace, notation asymptotique
- Structures de données (listes, piles, files, ensembles, tas, arbres binaires de recherche, tables de hachage)
- Théorie des graphes (parcours, plus court chemin)
- Conception d'algorithmes (diviser pour régner, force brute)
Programmation
- Solides connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre)
- Structures de données
- Notions de parallélisation
Ingénierie informatique
- Solides connaissances de l'environnement UNIX
- Gestion de la mémoire et des transferts de données
- Connaissances élémentaires des réseaux
Syllabus
Part #1 - Au fond, c’est quoi le Big Data ?
1. Prenez vos marques dans le monde du Big Data
2. Voyagez dans l’écosystème du Big Data
3. Initiez-vous au calcul distribué
Quiz: À la découverte des mégadonnées
Part #2 - Réalisez des calculs massivement parallèles avec MapReduce
1. Divisez (et distribuez) pour régner
2. Parcourez les principaux algorithmes MapReduce
3. Familiarisez-vous avec Hadoop
Activity: Recréez le cœur de Google avec Hadoop : la pondération tf-idf et le PageRank
Part #3 - Effectuez des calculs distribués sous forme de graphes avec Spark
1. Allez au-delà de MapReduce avec Spark
2. Prenez Spark en main
3. Domptez les Resilient Distributed Datasets
4. Mettez Spark au service des Data Scientists
5. Apprenez à débugger une application Spark
Activity: Réalisez des statistiques sur un texte avec Spark SQL
Part #4 - Passez à l'échelle dans le cloud
1. Découvrez Amazon Web Services
2. Stockez des données sur S3
3. Déployez un cluster de calculs distribués
4. Réalisez la maintenance d'un cluster
Quiz: Stockage et calculs distribués dans le cloud
Taught by
Céline Hudelot and Régis Behmo
Tags
Related Courses
AWS IoT: Developing and Deploying an Internet of ThingsAmazon Web Services via edX AWS Cloud Practitioner Essentials (German)
Amazon Web Services via AWS Skill Builder AWS Cloud Practitioner Essentials (Greek)
Amazon Web Services via AWS Skill Builder AWS Cloud Practitioner Essentials (Indonesian)
Amazon Web Services via AWS Skill Builder AWS Cloud Practitioner Essentials (Polish)
Amazon Web Services via AWS Skill Builder