YoVDO

Découverte de Google Ngrams avec Amazon EMR et Hive (Français) | Exploring Google Ngrams with Amazon EMR and Hive (French)

Offered By: Amazon Web Services via AWS Skill Builder

Tags

Amazon EMR Courses Data Analysis Courses SQL Courses Data Processing Courses Google NGrams Courses

Course Description

Overview

Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!

Présentation de l’atelier

Dans cet atelier, vous utiliserez Amazon EMR pour analyser les Ngrams provenant de Google Books. Un n-gram est une séquence continue d’éléments n provenant d’une séquence de texte ou de discours. Par exemple, voyez la phrase suivante :

The sun rises in the East and sets in the West.

Cette phrase contient plusieurs 2-grams, dont :

  • « the sun »
  • « in the »
  • « sets in »

Un échantillon 3-gram est « sets in the » et un échantillon 4-gram est « rises in the east ».

Les N-grams sont utilisés pour prédire la probabilité de certains mots apparaissant dans une séquence. Cette fonctionnalité peut être utile pour fournir des suggestions de recherche sur des pages web et des téléphones portables.

Les étapes de cet atelier sont très similaires aux activités qu’un Scientifique de données réaliserait en analysant un nouvel ensemble de données. Cela inclut le chargement des données, examiner les attributs des données et écrire en SQL pour analyser les données. Dans cet atelier, vous utilisez SQL plutôt que les données Ngrams disponibles au public stockées dans Amazon S3 pour obtenir des informations intéressantes.

Objectifs

À la fin de cet atelier, vous saurez :

  • créer un cluster Amazon EMR en utilisant Hive ;
  • utiliser les expressions de Hive pour créer des tables depuis les données saisies de Google Ngram stockées dans Amazon S3 ;
  • utiliser des requêtes Hive pour examiner et analyser les données.

Durée

Cet atelier dure environ 45 minutes*.

Signification des icônes

De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :

  • Commande : une commande que vous devez exécuter.
  • Sortie attendue : un exemple de sortie que vous pouvez utiliser pour vérifier la sortie d’une commande ou d’un fichier modifié.
  • Remarque : un indice, une directive ou un conseil important.
  • AVERTISSEMENT : une action qui est irréversible et susceptible d’avoir une incidence sur l’échec d’une commande ou d’un processus (y compris les avertissements concernant les configurations ne pouvant pas être modifiées après leur mise en place).
  • Contrôle des connaissances : une opportunité de vérifier vos connaissances et de tester ce que vous avez appris.
  • Tâche terminée : une conclusion ou un récapitulatif de l’atelier.

Tags

Related Courses

Coding the Matrix: Linear Algebra through Computer Science Applications
Brown University via Coursera
كيف تفكر الآلات - مقدمة في تقنيات الحوسبة
King Fahd University of Petroleum and Minerals via Rwaq (رواق)
Datascience et Analyse situationnelle : dans les coulisses du Big Data
IONIS via IONIS
Data Lakes for Big Data
EdCast
統計学Ⅰ:データ分析の基礎 (ga014)
University of Tokyo via gacco