YoVDO

Créez votre Data Lake

Offered By: CentraleSupélec via OpenClassrooms

Tags

Big Data Courses Programming Courses HDFS Courses

Course Description

Overview

Lors de la conception d’une architecture Big Data, la première question concerne le stockage pur et simple des données brutes.

Où stocker les données ? Selon quel format ? Selon quelle hiérarchie ? Les solutions choisies doivent répondre à des impératifs de passage à l’échelle puisque la quantité de données à stocker va toujours croissant. Mais il ne s’agit pas pour autant d’archivage car il faut établir un accès aisé aux données pour permettre leur exploitation par des applications tierces.

Dans ce cours, vous apprendrez à concevoir un Data Lake : il s’agit d’un dépôt de données brutes accessible en lecture seule qui doit être la source de données de référence utilisée par les autres applications de traitement de données. C’est donc un composant fondamental de toute architecture Big Data !

Vous trouviez le stockage de données boring ? Vous allez changer d’avis !

Prérequis :

Programmation : Connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre) et en structures de données.

Ingénierie informatique :
- Solides connaissances de l'environnement Unix.
- Gestion de la mémoire et des transferts de données.
- Connaissances réseau élémentaires.


Syllabus

Part #1 - Stockez vos données de manière distribuée avec HDFS
1. Identifiez les besoins de votre data lake
2. Découvrez le système de fichiers distribué HDFS
3. Mettez les mains dans le cambouis avec HDFS
4. Déployez HDFS en production et passez à l’échelle
Quiz: Devenez incollables sur l'administration d'un cluster HDFS

Part #2 - Sérialisez vos données avec Avro
1. Créez vos premiers schémas de données avec Avro
2. Faites évoluer vos schémas de données
3. Réalisez des analyses sur votre master dataset
Activity: Mangez des nouilles !


Taught by

Régis Behmo

Tags

Related Courses

Accounting Analytics
University of Pennsylvania via Coursera
Big Data
University of Adelaide via edX
Big Data: adquisición y almacenamiento de datos
Universitat Autònoma de Barcelona (Autonomous University of Barcelona) via Coursera
Advanced Topics and Future Trends in Database Technologies
University of Colorado Boulder via Coursera
AI and Big Data in Global Health Improvement
Taipei Medical University via FutureLearn