Serverless Data Processing with Dataflow: Develop Pipelines em Português Brasileiro
Offered By: Google Cloud via Coursera
Course Description
Overview
Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!
In this second installment of the Dataflow course series, we are going to be diving deeper on developing pipelines using the Beam SDK. We start with a review of Apache Beam concepts. Next, we discuss processing streaming data using windows, watermarks and triggers. We then cover options for sources and sinks in your pipelines, schemas to express your structured data, and how to do stateful transformations using State and Timer APIs. We move onto reviewing best practices that help maximize your pipeline performance. Towards the end of the course, we introduce SQL and Dataframes to represent your business logic in Beam and how to iteratively develop pipelines using Beam notebooks.
Syllabus
- Introduçao
- Este módulo é uma introdução ao curso e ao conteúdo dele.
- Resumo dos conceitos do Beam
- Confira os principais conceitos do Apache Beam e como aplicá-los na criação dos seus próprios pipelines de processamento de dados.
- Janelas, gatilhos de marcas d'água
- Neste módulo, você aprenderá a processar dados em streaming com o Dataflow. Para fazer isso, você precisa entender três conceitos principais: como agrupar dados em janelas, a importância das marcas d’água para saber quando a janela está pronta para oferecer resultados e como definir quantas vezes a janela emitirá respostas e a frequência desse processo.
- Origens e coletores
- Neste módulo, você aprenderá sobre as origens e os coletores no Google Cloud Dataflow. Mostraremos alguns exemplos de DoFn divisível e de E/S de texto, arquivos, BigQuery, Pub/Sub, Kafka, BigTable e Avro. Além disso, mostraremos alguns recursos úteis associados a cada E/S.
- Esquemas
- Neste módulo, apresentaremos esquemas que são usados por desenvolvedores para expressar dados estruturados nos pipelines do Beam.
- Estado e Timers
- Neste módulo, falaremos sobre estado e timers, dois recursos avançados que você pode usar na DoFn para implementar transformações com estado.
- Práticas Recomendadas
- Neste módulo, falaremos sobre práticas recomendadas e padrões comuns que maximizam o desempenho dos seus pipelines do Dataflow.
- Dataflow SQL e DataFrames
- Neste módulo, apresentaremos duas novas APIs que representam sua lógica de negócios no Beam: SQL e DataFrames.
- Notebooks do Beam
- Este módulo é sobre os notebooks do Beam, uma interface para que os desenvolvedores que usam Python comecem a adotar o SDK da plataforma. Isso pode ser feito para criar pipelines de forma iterativa em um ambiente de notebooks do Jupyter.
- Resumo
- Este módulo é uma recapitulação do curso.
Taught by
Google Cloud Training
Related Courses
Hands-On with DataflowA Cloud Guru Building Batch Data Pipelines on Google Cloud
Google Cloud via Coursera Building Batch Data Pipelines on GCP em Português Brasileiro
Google Cloud via Coursera Building Batch Data Pipelines on GCP en Español
Google Cloud via Coursera Building Batch Data Pipelines on GCP en Français
Google Cloud via Coursera