YoVDO

Décrivez et nettoyez votre jeu de données

Offered By: ENSAE-ENSAI Formation Continue via OpenClassrooms

Tags

Data Science Courses Data Analysis Courses R Programming Courses Data Cleaning Courses

Course Description

Overview

Quel est le point commun entre un biologiste, un journaliste et un analyste marketing ? Ils communiquent tous à l’aide de graphiques, de moyennes ou de pourcentages, bref : ils font des statistiques !

Avoir des données à disposition, c'est bien, mais savoir en tirer les informations principales, c'est essentiel. Les données sont l'or noir de notre époque : on en analyse des quantités astronomiques chaque seconde dans le monde grâce à des algorithmes. Vous avez probablement déjà entendu parler de Big Data ou de Data Science.

Dans ce cours, vous apprendrez les bases de la Data Science : chercher les informations essentielles dans des données, notamment à l'aide de graphiques. Vous avez déjà entendu parler de moyennes, de variances ou d’histogrammes. Nous allons ici redécouvrir tous ces concepts, mais nous irons encore plus loin en recherchant les relations qui existent à l’intérieur de vos données. Mais avant tout, nous verrons comment nettoyer des données : vous verrez en effet que vos données ne seront jamais directement exploitables sans une phase préalable.

Prérequis :

  • Avoir quelques notions de mathématiques : multiplication, division, puissance, nombres entiers, nombres réels, équation de droite par fonction affine ( f(x)=ax+b ), coordonnées d'un point dans un graphique à 2 dimensions
  • Optionnellement, savoir programmer en langage R ou en langage Python (niveau basique) et savoir manipuler les objets Dataframe (disponibles nativement sous R, ou en Python via la librairie Pandas). Cela vous sera utile pour quelques quiz et activités évaluées. Les cours permettant d'acquérir ces prérequis sont listés dans le premier chapitre de ce cours.

Syllabus

Part #1 - Introduction
1. Tirez parti de ce cours

Part #2 - Représentez vos variables
1. Rencontrez Vincent, data analyst dans le domaine de l'énergie
2. Installez R ou Python
3. Découvrez les statistiques : vocabulaire et tour d’horizon
4. Téléchargez les données
5. Découvrez les 4 types de variables
6. Représentez la distribution empirique d'une variable
7. Présentez une variable sous forme de tableau
Quiz: Testez vos connaissances sur les statistiques descriptives

Part #3 - Réalisez une analyse univariée
1. Rencontrez Ulysse, Data Analyst à OpenClassrooms
2. Laissez-vous guider par les indicateurs
3. Découvrez les mesures de tendance centrale
4. Comprenez les mesures de dispersion
5. Appréhendez les mesures de forme
6. Familiarisez-vous avec les mesures de concentration
7. Abordez encore plus de mesures
Quiz: Les mesures statistiques

Part #4 - Réalisez une analyse bivariée
1. Entrez dans le monde de l’analyse bivariée
2. Recherchez les corrélations
3. Analysez la corrélation entre deux variables quantitatives
4. Analysez deux variables quantitatives par régression linéaire
5. Analysez une variable quantitative et une qualitative par ANOVA
6. Analysez deux variables qualitatives avec le Chi-2
Activity: Réalisez des analyses bivariées

Part #5 - Nettoyez votre jeu de données
1. Repérez les différents types d'erreurs
2. Traitez les valeurs manquantes, les outliers et les doublons
3. TP : Nettoyez votre jeu de données
Quiz: Nettoyez votre échantillon


Taught by

Nicolas Rangeon

Tags

Related Courses

Data Wrangling with MongoDB
MongoDB via Udacity
Getting and Cleaning Data
Johns Hopkins University via Coursera
软件包在流行病学研究中的应用 Using software apps in epidemiological research
Peking University via Coursera
Creating an Analytical Dataset
Udacity
Implementing ETL with SQL Server Integration Services
Microsoft via edX