Lab - Analyze and Prepare Data with Amazon SageMaker Data Wrangler and Amazon EMR (Japanese)
Offered By: Amazon Web Services via AWS Skill Builder
Course Description
Overview
このラボでは、SageMaker Data Wrangler でデータを可視化して準備し、データセットを変換する方法を学習します。また、S3 と SageMaker Studio を使用して Apache Spark で Apache Hive を操作します。
目標
- データを可視化するための効果的な方法を理解する。
- データをクリーニングおよび変換する手法と、欠損値、外れ値、重複データなどを処理する方法を確認する。
- データを Amazon Sagemaker Data Wrangler に取り込んで、変換する方法を学習する。
- Amazon EMR で Spark を使用してデータを変換する方法を試す。
前提条件
- AWS マネジメントコンソールの基本的な操作を行うことができる。
- データベースの概念、MySQL、データベースの可用性について理解している。
概要
- タスク 1: SageMaker Data Wrangler を使用してデータのインポート、可視化、予備分析を行う
- タスク 2: データを分析し可視化する
- タスク 3: データ変換を実行してデータセットをエクスポートする
- タスク 4: 環境を設定する
- タスク 5: EMR クラスターに接続する
- タスク 6: SparkMagic PySpark カーネルでデータを探索し、クエリを実行する
Tags
Related Courses
CS115x: Advanced Apache Spark for Data Science and Data EngineeringUniversity of California, Berkeley via edX Big Data Analytics
University of Adelaide via edX Big Data Essentials: HDFS, MapReduce and Spark RDD
Yandex via Coursera Big Data Analysis: Hive, Spark SQL, DataFrames and GraphFrames
Yandex via Coursera Introduction to Apache Spark and AWS
University of London International Programmes via Coursera