YoVDO

Modélisez vos données avec les méthodes ensemblistes

Offered By: CentraleSupélec via OpenClassrooms

Tags

Machine Learning Courses Python Courses Data Modeling Courses Random Forests Courses Ensemble Methods Courses Gradient Boosting Courses Bagging Courses

Course Description

Overview

Après avoir étudié les méthodes supervisées linéaires et non-linéaire les plus utilisés dans les cours précédent, il est temps d'aborder la famille des méthodes ensemblistes.

Êtes-vous prêt·e à décupler la puissance de vos modèles grâce aux méthodes ensemblistes ? C'est ce que nous allons voir dans ce cours, en nous intéressant à une famille d'algorithme parmi les plus performantes actuellement.

En effet, en utilisant de manière rusée notre jeu de données, nous pouvons exploiter tout son potentiel, en créant un grand nombre de petit modèles rapidement puis en développant un méta-modèle qui les rassemble.

Suivez ce cours pour apprendre les deux familles de modèles les plus utilisées par les data scientists : les méthodes parallèles avec les forêts aléatoires et les méthodes séquentielles dont le modèle phare est le gradient boosting.

Prérequis

Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

  • Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot)
  • Quelques notions d'algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes
  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance
  • Le cours sur les méthodes supervisées linéaire et non linéaires

 


Syllabus

Part #1 - Apprivoisez les méthodes parallèles
1. Améliorez la performance de vos algorithmes à l’aide des méthodes ensemblistes parallèles
2. Contrôlez la variance à l’aide du bagging
3. Réduisez la corrélation entre les apprenants faibles à l’aide des forêts aléatoires
4. TP - Mesurez la puissance des forêts aléatoires
Quiz: Partie 1

Part #2 - Maîtrisez les méthodes séquentielles
1. Initiez-vous aux méthodes séquentielles et au Boosting
2. Décuplez les capacités du boosting : (X)GBoost
Quiz: Partie 2


Taught by

Yannis Chaouche

Tags

Related Courses

Design Computing: 3D Modeling in Rhinoceros with Python/Rhinoscript
University of Michigan via Coursera
A Practical Introduction to Test-Driven Development
LearnQuest via Coursera
FinTech for Finance and Business Leaders
ACCA via edX
Access Bioinformatics Databases with Biopython
Coursera Project Network via Coursera
Accounting Data Analytics
University of Illinois at Urbana-Champaign via Coursera