YoVDO

Exploración de Google Ngrams con Amazon EMR y Hive (Español LATAM) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Latin America)

Offered By: Amazon Web Services via AWS Skill Builder

Tags

Amazon EMR Courses Big Data Courses Data Analysis Courses Amazon S3 Courses Text Analysis Courses Google NGrams Courses

Course Description

Overview

Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!

Información general sobre el laboratorio

En este laboratorio, utilizará Amazon EMR para analizar Ngrams de Google Books. Un n-grama es una secuencia contigua de elementos n de una secuencia determinada de texto o voz. Por ejemplo, considere esta oración:

The sun rises in the East and sets in the West.

Esta oración incluye múltiples 2-grams, incluyendo:

  • “el sol”
  • “por”
  • “se pone”

Un ejemplo de 3-grama es “se pone por” y un ejemplo de 4-grama es “sale por el Este”.

Los N-grams se utilizan para predecir la probabilidad de que ciertas palabras aparezcan en una secuencia. Esto puede ser útil para proporcionar sugerencias de tipeo en páginas web y teléfonos móviles.

Los pasos de este laboratorio son muy similares a las actividades que realizaría un científico de datos cuando tiene que analizar un conjunto de datos. Estas tareas incluyen cargar los datos, examinar sus atributos y escribir SQL para analizarlos. En este laboratorio, ejecutará SQL sobre datos de Ngrams públicos almacenados en Amazon S3 para obtener información interesante.

Objetivos

Al finalizar este laboratorio, podrá hacer lo siguiente:

  • crear un clúster de Amazon EMR con Hive
  • utilizar instrucciones de Hive para crear tablas a partir del ingreso de datos de N-gramas de Google almacenados en Amazon S3
  • ejecutar consultas de Hive para profundizar y analizar los datos

Duración

El tiempo estimado para completar este laboratorio es de 45 minutos*.

Significados de los íconos

A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:

  • Comando: un comando que debe ejecutar.
  • Resultado esperado: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.
  • Nota: una pista, consejo u orientación importante.
  • ADVERTENCIA: una acción que es irreversible y que podría generar un error en un comando o proceso (incluye advertencias sobre configuraciones que no se pueden modificar después de realizarlas).
  • Evaluación de conocimientos: una oportunidad para verificar lo que sabe y poner a prueba lo que ha aprendido.
  • Tarea completa: un punto de conclusión o resumen del laboratorio.

Tags

Related Courses

Getting Started with Amazon Simple Storage Service (S3)
Amazon via Independent
Deep Dive into Amazon Simple Storage Service (Amazon S3)
Amazon via Independent
AWS Developer Series
Amazon via edX
Crear y gestionar archivos con AWS S3
Coursera Project Network via Coursera
Building Data Lakes on AWS
Amazon Web Services via Coursera