YoVDO

Réalisez des calculs distribués sur des données massives

Offered By: CentraleSupélec via OpenClassrooms

Tags

Big Data Courses Cloud Computing Courses Distributed Computing Courses Amazon Web Services Courses

Course Description

Overview

Que faire lorsque la complexité de vos applications dépasse votre capacité de calcul ? La solution consiste à distribuer les calculs sur un cluster constitué de plusieurs machines, mais faut-il pour cela avoir un supercalculateur dans son garage ? Non ! Aujourd'hui, le cluster computing est à la portée de tous grâce à MapReduce, qui permet de créer facilement des applications distribuées, et au cloud, qui fournit des ressources de calculs pratiquement infinies pour un coût modique.

C'est le rôle des Data Architects de déployer des clusters de calculs permettant de réaliser des analyses complexes sur des données massives. Pour cela, nous verrons ensemble comment écrire des applications distribuées avec Hadoop MapReduce et Spark, éléments essentiels de la boîte à outil des Data Architects. À l'issue de ce cours, vous serez en mesure de lancer des calculs distribués sur des clusters contenant des dizaines de machines à l'aide d'Amazon Web Services.

Vous voulez faire du Big Data sans blabla ? Alors on y va !

Prérequis :

Algorithmique

  • Estimation et optimisation de complexité en temps et espace, notation asymptotique
  • Structures de données (listes, piles, files, ensembles, tas, arbres binaires de recherche, tables de hachage)
  • Théorie des graphes (parcours, plus court chemin)
  • Conception d'algorithmes (diviser pour régner, force brute)

Programmation

  • Solides connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre)
  • Structures de données
  • Notions de parallélisation

Ingénierie informatique

  • Solides connaissances de l'environnement UNIX
  • Gestion de la mémoire et des transferts de données
  • Connaissances élémentaires des réseaux

Syllabus


Part #1 - Au fond, c’est quoi le Big Data ?
1. Prenez vos marques dans le monde du Big Data
2. Voyagez dans l’écosystème du Big Data
3. Initiez-vous au calcul distribué
Quiz: À la découverte des mégadonnées

Part #2 - Réalisez des calculs massivement parallèles avec MapReduce
1. Divisez (et distribuez) pour régner
2. Parcourez les principaux algorithmes MapReduce
3. Familiarisez-vous avec Hadoop
Activity: Recréez le cœur de Google avec Hadoop : la pondération tf-idf et le PageRank

Part #3 - Effectuez des calculs distribués sous forme de graphes avec Spark
1. Allez au-delà de MapReduce avec Spark
2. Prenez Spark en main
3. Domptez les Resilient Distributed Datasets
4. Mettez Spark au service des Data Scientists
5. Apprenez à débugger une application Spark
Activity: Réalisez des statistiques sur un texte avec Spark SQL

Part #4 - Passez à l'échelle dans le cloud
1. Découvrez Amazon Web Services
2. Stockez des données sur S3
3. Déployez un cluster de calculs distribués
4. Réalisez la maintenance d'un cluster
Quiz: Stockage et calculs distribués dans le cloud


Taught by

Céline Hudelot and Régis Behmo

Tags

Related Courses

AWS IoT: Developing and Deploying an Internet of Things
Amazon Web Services via edX
AWS Cloud Practitioner Essentials (German)
Amazon Web Services via AWS Skill Builder
AWS Cloud Practitioner Essentials (Greek)
Amazon Web Services via AWS Skill Builder
AWS Cloud Practitioner Essentials (Indonesian)
Amazon Web Services via AWS Skill Builder
AWS Cloud Practitioner Essentials (Polish)
Amazon Web Services via AWS Skill Builder