YoVDO

Serverless Data Processing with Dataflow: Develop Pipelines en Español

Offered By: Google Cloud via Coursera

Tags

Dataflow Courses SQL Courses DataFrames Courses Streaming Data Processing Courses Serverless Data Processing Courses

Course Description

Overview

En esta segunda parte de la serie de cursos sobre Dataflow, analizaremos en profundidad el desarrollo de canalizaciones con el SDK de Beam. Comenzaremos con un repaso de los conceptos de Apache Beam. A continuación, analizaremos el procesamiento de datos de transmisión con ventanas, marcas de agua y activadores. Luego, revisaremos las opciones de fuentes y receptores en sus canalizaciones, los esquemas para expresar datos estructurados y cómo realizar transformaciones con estado mediante las API de State y de Timer. Después, revisaremos las prácticas recomendadas que ayudan a maximizar el rendimiento de las canalizaciones. Al final del curso, presentaremos SQL y Dataframes para representar su lógica empresarial en Beam y cómo desarrollar canalizaciones de forma iterativa con notebooks de Beam.

Syllabus

  • Introducción
    • En este módulo, se presenta el curso y su descripción
  • Revisión de conceptos de Beam
    • Revise los conceptos principales de Apache Beam y cómo aplicarlos para escribir sus propias canalizaciones de procesamiento de datos.
  • Ventanas, marcas de agua y activadores
    • En este módulo, aprenderá a procesar datos en transmisiones con Dataflow. Para ello, debe conocer tres conceptos principales: cómo agrupar datos en ventanas, la importancia de las marcas de agua para saber cuándo la ventana está lista para producir resultados, y cómo puede controlar cuándo y cuántas veces los emitirá la ventana.
  • Fuentes y receptores
    • En este módulo, aprenderá acerca de las características de las fuentes y los receptores en Google Cloud Dataflow. En el módulo hay algunos ejemplos de E/S de Text, E/S de File, E/S de BigQuery, E/S de PubSub, E/S de KafKa, E/S de BigTable, E/S de Avro y DoFn divisible. En el módulo también se indican algunas funciones útiles asociadas a cada E/S.
  • Esquemas
    • En este módulo, se presentarán los esquemas, que les proporcionan a los desarrolladores una manera de expresar datos estructurados en sus canalizaciones de Beam.
  • Estado y Temporizadores
    • Este módulo abarca Estado y Temporizadores, dos funciones potentes que puede usar en su DoFn para implementar transformaciones con estado.
  • Prácticas Recomendadas
    • En este módulo, analizaremos las prácticas recomendadas y revisaremos patrones comunes que maximizan el rendimiento de sus canalizaciones de Dataflow.
  • Dataflow SQL y DataFrames
    • En este módulo, se mencionan dos API nuevas para representar su lógica empresarial en Beam: SQL y Dataframes.
  • Notebooks de Beam
    • Este módulo abarcará notebooks de Beam, una interfaz para desarrolladores de Python a fin de realizar incorporaciones en el SDK de Beam y desarrollar sus canalizaciones iterativamente en un entorno de notebooks Jupyter.
  • Resumen
    • En este módulo, se ofrece un resumen del curso.

Taught by

Google Cloud Training

Related Courses

Analisis Data dengan Pemrograman R
Google via Coursera
Analíticas de Datos con Pandas
Tecnológico de Monterrey via Coursera
Spark Overview for Scala Analytics
Cognitive Class
Apache Spark with Scala – Hands-On with Big Data!
Packt via Coursera
Foundations of Data Analysis with Pandas and Python
Packt via Coursera