Обработка больших данных
Offered By: Higher School of Economics via Coursera
Course Description
Overview
Ключ к успешному развитию любой компании в современном мире — это умение делать быстрые и правильные решения, основываясь на данных. С каждым годом этих данных становится всё больше, при этом старые методы анализа перестают адекватно работать на таких объемах.
На этом онлайн-курсе НИУ ВШЭ мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать огромные массивы информации. Мы также обсудим, откуда данные вообще возникают, как их собирать и какая инженерная подготовка требуется для безболезненной работы с этими технологиями.
На этом онлайн-курсе НИУ ВШЭ мы изучим основные технологии и приемы, позволяющие эффективно хранить и обрабатывать огромные массивы информации. Мы также обсудим, откуда данные вообще возникают, как их собирать и какая инженерная подготовка требуется для безболезненной работы с этими технологиями.
Syllabus
- Базовые подходы к хранению и извлечению информации
- На этой неделе мы познакомимся с SQL и NoSQL базами данных и извлечением информации из Интернета. Ведь большие данные откуда-то нужно брать.
- Bash для инженера данных
- На этой неделе мы научимся работать с командной строкой в bash. Это очень полезное умение, которое пригодится на протяжении всего курса.
- Начало работы с большим объемом данных: Hadoop, MapReduce
- В этом модуле разберемся, как устроены два важных компонента экосистемы Hadoop: файловая система HDFS и API для вычислений MapReduce. Посмотрим, почему они устроены именно так и почему горизонтальная масштабируемость – это хорошо.
- Знакомство со Spark
- На этой неделе разберем фреймворк для распределенных вычислений Spark. С ним сильно проще работать из Python и он умеет много всего.
- Продвинутое использование Spark
- На этой неделе на примере задачи классификации текстов посмотрим, что еще умеет Spark и как это помогает решать задачи машинного обучения.
Taught by
Andrei Zimovnov
Tags
Related Courses
Amazon DynamoDB Data ModelingA Cloud Guru AZ-303 Part 4 - Implement and Manage Data Platforms in Azure
A Cloud Guru Azure Cosmos DB Deep Dive
A Cloud Guru Big Data Essentials
A Cloud Guru Choosing the Right Database Service on AWS
A Cloud Guru