Vision-Language Models Courses

Mastering Google's PaliGemma VLM: Tips and Tricks for Success and Fine-Tuning
Sam Witteveen via YouTube Fine-tuning PaliGemma for Custom Object Detection
Roboflow via YouTube Florence-2: The Best Small Vision Language Model - Capabilities and Demo
Sam Witteveen via YouTube Fine-tuning Florence-2: Microsoft's Multimodal Model for Custom Object Detection
Roboflow via YouTube OpenVLA: An Open-Source Vision-Language-Action Model - Research Presentation
HuggingFace via YouTube New Flux IMG2IMG Trick, Upscaling Options, and Prompt Ideas in ComfyUI
Nerdy Rodent via YouTube LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
Launchpad via YouTube Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks
USC Information Sciences Institute via YouTube RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
Montreal Robotics via YouTube Vision Language Models and PDFs: What You See Is What You Search - Haystack EU 2024
OpenSource Connections via YouTube

Page 1 Next >