Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)
Offered By: Amazon Web Services via AWS Skill Builder
Course Description
Overview
Visão geral do laboratório
Neste laboratório, você vai usar o Amazon EMR para analisar o Ngrams do Google Livros. Um n-grama é uma sequência contígua de n itens de uma dada sequência de texto ou fala. Por exemplo, considere esta frase:
The sun rises in the East and sets in the West.
Esta frase inclui vários 2-gramas, incluindo:
- “the sun”
- “in the”
- “sets in”
Um 3-grama de exemplo é “sets in the” e um exemplo de 4-grama é “rises in the east”.
N-gramas são usados para prever a probabilidade de determinadas palavras aparecerem em uma sequência. Isso pode ser útil para fornecer sugestões de digitação em páginas da web e telefones celulares.
As etapas neste laboratório são muito parecidas com as atividades que um cientista de dados realizaria ao analisar um novo conjunto de dados. Isso inclui carregar os dados, examinar os atributos de dados e escrever SQL para analisar os dados. Neste laboratório, você vai executar SQL em dados de Ngramas disponíveis ao público armazenados no Amazon S3 para obter informações interessantes.
Objetivos
Depois de concluir o laboratório, você será capaz de:
- Criar um cluster do Amazon EMR executando o Hive
- Usar instruções do Hive para criar tabelas com base nos dados de entrada do Google Ngram armazenados no Amazon S3
- Executar consultas do Hive para detalhar e analisar dados
Duração
O laboratório leva aproximadamente 45 minutos* para ser concluído.
Lista de ícones
Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:
- Comando: um comando que você precisa executar.
- Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
- Observação: uma sugestão, dica ou orientação importante.
- AVISO: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
- Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
- Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.
Tags
Related Courses
Social Network AnalysisUniversity of Michigan via Coursera Intro to Algorithms
Udacity Data Analysis
Johns Hopkins University via Coursera Computing for Data Analysis
Johns Hopkins University via Coursera Health in Numbers: Quantitative Methods in Clinical & Public Health Research
Harvard University via edX