Leistungsnachweis |
Von jedem Seminarteilnehmer wird ein 30-minütiger Vortrag, eine 7-10 Seiten lange Ausarbeitung (10-16 Seiten für Master-Studenten), Anwesenheit, sowie eine aktive Mitarbeit erwartet. |
Lerninhalte |
Wenn es um Bildverarbeitung oder Rechnersehen geht, hat kaum einer noch nichts von Deep Learning gehört. Diese Methode des maschinellen Lernens ermöglicht es Systeme zur Objekterkennung zu erstellen, die nicht auf handgemachte Merkmale angewiesen sind. Stattdessen wird die Bildinformation selbst dem System präsentiert. Das System wandelt dann das Bild in eine passende Repräsentation um, welche für eine bestimmte Aufgabenstellung (z. B. Objektklassifikation) am besten geeignet ist.
Die entscheidene Herausforderung besteht dabei darin, die bestmögliche Repräsentation zu finden. Einige Ansätze zielen darauf ab, einen Merkmalsraum zu lernen, dessen Struktur bestimmten vorgegebenen Kriterien entspricht (z. B. dass ähnliche Bilder im Merkmalsraum nahe beieinander und weit entfernt von unähnlichen Bildern liegen). Andere wiederum versuchen generische Repräsentation aus dem Bildinhalt selbst zu lernen, ohne dabei auf zeit- und kostenintensive Annotationen angewiesen zu sein. Manche Systeme versuchen hingegen, die für die jeweilige Aufgabe relevantesten Bereiche eines Bildes zu ermitteln und sowohl den lokalen als auch den globalen Kontext optimal gegeneinander abzuwiegen.
Im Rahmen des Seminars werden solche Systeme betrachtet. Dazu stehen unter anderem folgende Themen zur Auswahl:
- Deep Metric Learning für Gesichtsidentifikation und inhaltsbasierte Bildersuche
- Unüberwachtes Lernen von Bildrepräsentationen
- Attention Modules in Computer Vision
- Objekterkennung mit einer Transformer-Architektur
- Semantische Segmentierung mittels separierter Attention Modules
Das Seminar soll ein Überblick über verschiedene aktuelle Systeme geben und deren Grundidee vermitteln.
Eigene Themenvorschläge sind ebenfalls willkommen! |