Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Simplified Chinese)
Offered By: Amazon Web Services via AWS Skill Builder
Course Description
Overview
在本实验中,您将学习如何在 SageMaker Data Wangler 中可视化、准备数据和转换数据集。您还将使用 S3 和 SageMaker Studio,通过 Apache Spark 与 Apache Hive 进行交互。
目标
- 了解有效的数据可视化方法
- 探索数据清理和转换方法,并探究如何处理缺失值、异常值、重复数据等。
- 学习如何在 Amazon Sagemaker Data Wrangler 中摄取和转换数据
- 尝试如何使用 Amazon EMR 上的 Spark 转换数据
前提条件
- AWS 管理控制台的基本导航操作。
- 了解数据库概念、MySQL 和数据库可用性。
概要
- 任务 1:使用 SageMaker Data Wrangler 导入、可视化数据并对数据执行初步分析
- 任务 2:分析和可视化数据
- 任务 3:执行数据转换并导出数据集
- 任务 4:设置环境
- 任务 5:连接到 EMR 集群
- 任务 6:探索和查询来自 SparkMagic PySpark 内核的数据
Tags
Related Courses
CS115x: Advanced Apache Spark for Data Science and Data EngineeringUniversity of California, Berkeley via edX Big Data Analytics
University of Adelaide via edX Big Data Essentials: HDFS, MapReduce and Spark RDD
Yandex via Coursera Big Data Analysis: Hive, Spark SQL, DataFrames and GraphFrames
Yandex via Coursera Introduction to Apache Spark and AWS
University of London International Programmes via Coursera