LLMOps: Quantizing Models and Inference with ONNX Generative Runtime
Offered By: The Machine Learning Engineer via YouTube
Course Description
Overview
Aprende a instalar el onnx runtime con soporte GPU para realizar inferencia con Modelos Generativos en este tutorial de 39 minutos. Explora el proceso de cuantización utilizando un modelo Phi3-mini-4k a 4int y transforma un Phi3-mini-128k a 4int con el runtime onnx. Sigue paso a paso la implementación práctica utilizando el notebook proporcionado en GitHub para dominar técnicas avanzadas de LLMOps, cuantización de modelos e inferencia con ONNX Generative Runtime. Perfecciona tus habilidades en ciencia de datos y aprendizaje automático con este contenido técnico detallado.
Syllabus
LLMOps: Quantizar modelos e Inferencia con ONNX Generative Runtime #datascience #machinelearning
Taught by
The Machine Learning Engineer
Related Courses
Data AnalysisJohns Hopkins University via Coursera Computing for Data Analysis
Johns Hopkins University via Coursera Scientific Computing
University of Washington via Coursera Introduction to Data Science
University of Washington via Coursera Web Intelligence and Big Data
Indian Institute of Technology Delhi via Coursera