YoVDO

Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)

Offered By: Amazon Web Services via AWS Skill Builder

Tags

Amazon EMR Courses Data Analysis Courses Cloud Computing Courses SQL Courses Google NGrams Courses

Course Description

Overview

Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!

Visão geral do laboratório

Neste laboratório, você vai usar o Amazon EMR para analisar o Ngrams do Google Livros. Um n-grama é uma sequência contígua de n itens de uma dada sequência de texto ou fala. Por exemplo, considere esta frase:

The sun rises in the East and sets in the West.

Esta frase inclui vários 2-gramas, incluindo:

  • “the sun”
  • “in the”
  • “sets in”

Um 3-grama de exemplo é “sets in the” e um exemplo de 4-grama é “rises in the east”.

N-gramas são usados para prever a probabilidade de determinadas palavras aparecerem em uma sequência. Isso pode ser útil para fornecer sugestões de digitação em páginas da web e telefones celulares.

As etapas neste laboratório são muito parecidas com as atividades que um cientista de dados realizaria ao analisar um novo conjunto de dados. Isso inclui carregar os dados, examinar os atributos de dados e escrever SQL para analisar os dados. Neste laboratório, você vai executar SQL em dados de Ngramas disponíveis ao público armazenados no Amazon S3 para obter informações interessantes.

Objetivos

Depois de concluir o laboratório, você será capaz de:

  • Criar um cluster do Amazon EMR executando o Hive
  • Usar instruções do Hive para criar tabelas com base nos dados de entrada do Google Ngram armazenados no Amazon S3
  • Executar consultas do Hive para detalhar e analisar dados

Duração

O laboratório leva aproximadamente 45 minutos* para ser concluído.

Lista de ícones

Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:

  • Comando: um comando que você precisa executar.
  • Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
  • Observação: uma sugestão, dica ou orientação importante.
  • AVISO: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
  • Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
  • Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.

Tags

Related Courses

Social Network Analysis
University of Michigan via Coursera
Intro to Algorithms
Udacity
Data Analysis
Johns Hopkins University via Coursera
Computing for Data Analysis
Johns Hopkins University via Coursera
Health in Numbers: Quantitative Methods in Clinical & Public Health Research
Harvard University via edX